- 名前 : 吉田光男(よしだみつお)
- 生年 : 1984
- 出身 : 和歌山
- 言語 : Perl, PHP, JavaScript, C, SQL
- 趣味 : 読書(積読), クローラ作成
- 好物 : コカ・コーラ, 冷えたビール
研究内容
インターネットを便利に利用するための技術を研究しています。特にウェブのコンテンツに注目しており、ウェブサイエンス(Web Science)と呼ばれる研究領域に興味があります。
現在、ウェブページ(例えばニュースやブログ)のコンテンツを自動抽出する研究を行っています(ニュース記事(Web)の本文特定)。ウェブページのコンテンツを抽出する事により、ウェブ検索エンジンの性能改善、ウェブページの研究促進などが期待されます。
研究成果の一部である コンテンツ抽出 Perl モジュール ExtractUniqueBlock を公開しています。お気軽にご利用ください。
ウェブの特定領域(例えば Twitter の URL 付きポストなど)のクローリングを適時行っています。ウェブコンテンツの解析研究を検討している方には、データ収集の面で協力できます。共同で研究を進めませんか?お気軽にご連絡ください。
発表予定
第2回データ工学と情報マネジメントに関するフォーラム(DEIM 2010)
2010年2月28日(日)~3月2日(火) at 淡路夢舞台国際会議場(兵庫県淡路市)
- リンクを含むつぶやきに着目したTwitterの分析(口頭・ポスター)
(吉田光男, 乾孝司, 山本幹雄)
言語処理学会第16回年次大会(NLP2010)
2010年3月8日(月)~3月12日(金) at 東京大学 本郷キャンパス(東京都文京区)
- ブログページ集合からのポスト及びコメントの自動抽出(ポスター)
(吉田光男, 乾孝司, 山本幹雄)
第17回Webインテリジェンスとインタラクション研究会(SIG-WI2)
2010年3月15日(月),16日(火) at 大阪大学 中之島センター(大阪府大阪市)
- リンクを含むつぶやきを中心としたTwitterの分析(口頭)
(吉田光男, 乾孝司, 山本幹雄)
論文など
発表資料等の公開はしばしお待ちを。つくばリポジトリ経由での公開を予定しています。
学術雑誌(査読有り)
- 教師情報を必要としないニュースページ群からのコンテンツ自動抽出
- 吉田光男, 山本幹雄
- 日本データベース学会論文誌(DBSJ Journal). 2009, vol.8, no.1, pp.29-34.
- 2009.06.26
- メモ: DEIM2009の座長推薦制度により投稿を行いました。DEIM2009の内容に加え、ブロック間比較に利用する閾値を変化させたとしても性能が安定している事を示しました。
- その他リポジトリ: My Open Archive
国内会議・シンポジウム(査読有り)
- CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得
- 吉田光男, 乾孝司, 山本幹雄
- 楽天研究開発シンポジウム2009
- 2009年11月14日(土) at 楽天タワー(東京都品川区)
- 発表資料(PPT)
- 優秀論文賞
- メモ: 日本データベース学会論文誌で提案したコンテンツ自動抽出手法による結果を用いる事で、コンテンツ抽出ルールをCSSセレクタとして自動抽出する手法を提案しました。普及した記法で抽出ルールを表現する事により、様々なアプリケーションで再利用しやすいと考えます。
- その他リポジトリ: My Open Archive
全国大会・研究会等
- ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
- 吉田光男, 乾孝司, 山本幹雄
- 第149回データベースシステム研究発表会(情報処理学会)
- 2009年11月20日(金)~21日(土) at 慶應義塾大学 日吉キャンパス 協生館(神奈川県横浜市)
- 発表資料(PPT)
- メモ: ブログページ集合において、ポスト(書き手コンテンツ)は全てのページに出現するが、コメント(読者コンテンツ)は必ずしもそうではないという傾向に着目しました。要素識別子を用いることにより、ページ内の部分の場所を一般化し、適切にポストとコメントを分離できることを示しました。
- その他リポジトリ: My Open Archive
- 教師情報を必要としないWebページ群の主要コンテンツ自動抽出
- 吉田光男, 山本幹雄
- 第23回人工知能学会全国大会(JSAI2009)
- 2009年6月17日(水)~19日(金) at サンポートホール高松(香川県高松市)
- 発表資料(PPT)
- メモ: DEIM2009の手法をブログページに適用して実験を行ない、約90%の抽出性能がある事を示しました。
- その他リポジトリ: My Open Archive
- 教師情報を必要としないWebページ群のコンテンツ自動抽出ツールの提案
- 吉田光男, 山本幹雄
- 第1回データ工学と情報マネジメントに関するフォーラム(DEIM2009)
- 2009年3月8日(日)~10日(火) at ヤマハリゾートつま恋(静岡県掛川市)
- 発表資料(PPT)
- メモ: 卒業研究の内容をまとめたものです。あるページのコンテンツは他のページに出現しないというシンプルなアイデアを実装し、ニュースサイトに対して約95%の抽出性能がある事を示しました。
- その他リポジトリ: My Open Archive
ポスター発表等

Photo by Mikio Yamamoto

Photo by Makoto Okamoto
- ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
- 吉田光男, 乾孝司, 山本幹雄
- Webとデータベースに関するフォーラム(WebDB Forum)2009
- 2009年11月19日(木)~20日(金) at 慶應義塾大学 日吉キャンパス 協生館(神奈川県横浜市)
- ポスター資料(PDF)
- その他リポジトリ: My Open Archive
- CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得
- 吉田光男, 乾孝司, 山本幹雄
- Webとデータベースに関するフォーラム(WebDB Forum)2009
- 2009年11月19日(木)~20日(金) at 慶應義塾大学 日吉キャンパス 協生館(神奈川県横浜市)
- ポスター資料(PDF)
- メモ: 楽天研究開発シンポジウム2009の事前審査により、推薦されました。
- その他リポジトリ: My Open Archive
- 教師情報を必要としないWebページ群のコンテンツ自動抽出ツールの提案
- 吉田光男, 山本幹雄
- 第1回データ工学と情報マネジメントに関するフォーラム(DEIM2009)
- 2009年3月8日(日)~10日(火) at ヤマハリゾートつま恋(静岡県掛川市)
- ポスター資料(PDF)
- 優秀インタラクティブ賞
- その他リポジトリ: My Open Archive
学位論文
- 教師情報を必要としないWebページ群のコンテンツ自動抽出
- 平成20年度 筑波大学第三学群情報学類 卒業研究論文
- 2009.03
- ※諸般の事情により情報学類教育用計算機システムにアカウントを持つユーザのみに公開
ソフトウェア・デモシステム
教育関係
教育歴
- 2009年度 筑波大学 情報メディア創成学類 ティーチング・アシスタント(TA) 情報メディア実験I(日本語形態素解析プログラムの作成)
- 2009年度 筑波大学 情報メディア創成学類 ティーチング・アシスタント(TA) データ構造とアルゴリズム実習
連絡先
- m.yoshida [at] mibel.cs. (ここより後ろはこのページのURLを参考に)
- MSN Messenger
- ceekz@hotmail.com
- Slype
- ceekz_skype
所属
筑波大学
- 大学院 システム情報工学研究科 コンピュータサイエンス専攻 博士前期課程(修士)1年
- 知能情報・生体工学研究室 自然言語処理グループ(山本研, 自然言語処理 on the Web 研究室)
学会
- 情報処理学会 (学生会員, 2006-)
- 人工知能学会 (学生会員, 2009-)
- 日本データベース学会 (学生会員, 2009-)
- 言語処理学会 (学生会員, 2009-)

