- 名前 : 吉田光男(よしだみつお)
- 生年 : 1984
- 出身 : 和歌山
- 言語 : Perl, PHP, C#, C, (D)HTML, JavaScript, CSS, SQL
- 趣味 : 読書(ほしい物リスト, 積読), クローラ作成
You can find my current CV (resume): English version
お知らせ
人工知能学会誌に解説記事が掲載(2012年1月9日)
2012年1月1日刊行の人工知能学会誌(vol.27, no.1)に「ソーシャルメディアの政治的活用 ―活用事例と分析事例から―」と題した解説記事が掲載されました。全国の大学図書館でお読みいただけます(大学図書館所蔵)。(論文・講演など)
海外長期滞在(2011年7月2日~2012年1月)
北京の Microsoft Research Asia に滞在しながら研究活動を行います(University Relations による紹介記事)。
学振の申請書(2011年5月25日)
日本学術振興会特別研究員(DC1)申請書を公開しました。皆様の参考になれば幸いです。
博士後期課程に進学(2011年4月1日)
筑波大が大学院システム情報工学研究科コンピュータサイエンス専攻の博士後期課程に進学しました。また、日本学術振興会の特別研究員(DC1)になりました。(所属)
修士(工学)の学位を取得(2011年3月25日)
筑波大学大学院から修士(工学)の学位を取得しました。さらに、所属する専攻の専攻長表彰を受賞しました。(表彰)
最優秀データチャレンジ賞(2010年12月18日)
第3回楽天研究開発シンポジウムのデータチャレンジ部門で、最優秀賞を受賞しました(共同研究)。(表彰)
日経産業新聞(2010年5月18日)
『日経産業新聞』2010年5月18日付6面(情報・通信)にインタビュー記事(JAPAN ITの異才たち)が掲載されました。(メディア掲載)
※筑波大学内であれば 日経テレコン21 を利用すれば読めます。
メールアドレス変更(2010年4月7日)
メールアドレスが m.yoshida [at] mibel.cs. → ceekz [at] mibel.cs. に変更になりました(ウェブページのアドレスも)。旧アドレスに送られたメールは、新アドレスに転送されます。「ceekz」(しーくず)は、2002年から使用しているハンドルネームです。(連絡先)
研究内容
ウェブ(インターネット)を便利に利用するための技術を研究しています。ウェブ工学(Web Engineering)、ウェブサイエンス(Web Science)と呼ばれる研究領域に興味があり、特にウェブのテキストコンテンツに注目し、自然言語処理という技術を活用した研究を行っています。
現在、ニュースやブログをはじめとするウェブページのコンテンツを自動抽出する研究を行っています(Web ページのコンテンツ特定)。ウェブページのコンテンツを抽出する事により、ウェブ検索エンジンの性能向上、ウェブページの研究利用促進などが期待されます。成果の一部である コンテンツ抽出 Perl モジュール ExtractUniqueBlock を公開しています。お気軽にご利用ください。
さらに、Webニュースなどに含まれる未来情報を抽出し、「未来情報年表」を自動構築する研究も行っています。年表生成に適した要約技術の確立、未来予測の基盤システムの開発を目指しています。
なお、共同研究を積極的に進めています。内容は多岐にわたりますが、ウェブクローリング、研究成果のプロトタイプシステムの構築で貢献できると思います。お気軽にご連絡下さい。
位置情報付きツイート
2011年6月頃より、Twitterに投稿されている日本付近の位置情報付きツイートを収集しています。収集範囲は、東経120度北緯20度~東経160度北緯50度の位置情報が付与されているツイート全てです。自分の研究に利用するために収集していますが、このデータを使って研究したい方がいらっしゃいましたら、共同研究という形で一緒に研究できればと思っています。お気軽にご連絡下さい。

上の左側の図は、収集したツイートに含まれる位置情報をプロットしたものです。ボットによる投稿(緊急地震速報など)が含まれるため、ユーザが GPS を用いて得た情報と共に投稿したであろうツイートをプロットしたのが右側の図です。縦軸をメルカトル図法に従ってスケールすれば、おなじみの日本列島を描けそうです。
論文・講演など
学術雑誌(学術論文・査読有り)
- 教師情報を必要としないニュースページ群からのコンテンツ自動抽出
- 吉田光男, 山本幹雄
- 日本データベース学会論文誌. vol.8, no.1, pp.29-34, 2009.
- 2009年6月26日
- メモ: DEIM2009の座長推薦制度により投稿を行いました。DEIM2009の内容に加え、ブロック間比較に利用する閾値を変化させたとしても性能が安定している事を示しました。
- つくばリポジトリ(無償公開)
学術雑誌(解説・総説)
- ソーシャルメディアの政治的活用 ―活用事例と分析事例から―
- 吉田光男, 松本明日香
- 人工知能学会誌. vol.27, no.1, pp. 43-50, 2012.
- 2012年1月1日
- メモ: 政治家および公共機関によるソーシャルメディアの活用事例、ソーシャルメディアの分析事例を解説しました。
- (学会の著作権規定に基づき、PDFの配布は個別対応になっております。配布を希望される方は、メール等でご連絡下さい。)
国際会議・シンポジウム
- Usage log analysis of articles in six Japanese institutional repositories: Which region do users access articles from?
- Sho Sato, Mitsuo Yoshida
- The 2010 CiSAP colloquium on Digital Library Research
- 2010年11月15日(月) at National Taiwan University(Taipei, Taiwan)
- メモ: 図書館情報学分野の方との共同研究です。クローリングに関する検討を担当しました。
- つくばリポジトリ(無償公開)
国内会議・シンポジウム(査読有り)
- Webニュースを用いた未来情報年表の自動構築 (ポスター発表)
- 吉田光男, 乾孝司, 山本幹雄
- 第3回楽天研究開発シンポジウム
- 2010年12月18日(土) at 楽天タワー2号館(東京都品川区)
- つくばリポジトリ(無償公開) / 未来情報年表(デモサイト)
- CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得
- 吉田光男, 乾孝司, 山本幹雄
- 楽天研究開発シンポジウム2009
- 2009年11月14日(土) at 楽天タワー(東京都品川区)
- 優秀論文賞, WebDB Forum 2010 ポスター発表推薦
- メモ: 日本データベース学会論文誌で提案したコンテンツ自動抽出手法による結果を用いる事で、コンテンツ抽出ルールをCSSセレクタとして自動抽出する手法を提案しました。普及した記法で抽出ルールを表現する事により、様々なアプリケーションで再利用しやすいと考えます。
全国大会・研究会(口頭発表)
- 日本語版Wikipediaからの外部リンクの特徴とリンク切れの発生状況
- 佐藤翔, 吉田光男, 安蒜孝政, 逸村裕
- 情報知識学会 第19回(2011年度)年次大会
- 2011年5月28日(土), 29日(日) at 香川大学 幸町キャンパス(香川県高松市)
- 情報知識学会誌. vol.21, no.2, pp.157-162, 2010.
- メモ: 図書館情報学分野の方との共同研究です。専用クローラの開発、データの集計を担当しました。
- 有害図書データベースの試作と有害図書の分析
- 木川田朱美, 吉田光男, 辻慶太
- 第58回日本図書館情報学会研究大会
- 2010年10月9日(土),10日(日) at 藤女子大学 北16条キャンパス(北海道札幌市)
- メモ: 図書館情報学分野の方との共同研究です。システム部分を担当しました。
- リンクを含むつぶやきを中心としたTwitterの分析
- 吉田光男, 乾孝司, 山本幹雄
- 第17回Webインテリジェンスとインタラクション研究会(SIG-WI2)
- 2010年3月15日(月),16日(火) at 大阪大学 中之島センター(大阪府大阪市)
- リンクを含むつぶやきに着目したTwitterの分析
- 吉田光男, 乾孝司, 山本幹雄
- 第2回データ工学と情報マネジメントに関するフォーラム(DEIM 2010)
- 2010年2月28日(日)~3月2日(火) at 淡路夢舞台国際会議場(兵庫県淡路市)
- つくばリポジトリ(無償公開)
- ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
- 吉田光男, 乾孝司, 山本幹雄
- 第149回データベースシステム研究発表会(情報処理学会)
- 2009年11月20日(金)~21日(土) at 慶應義塾大学 日吉キャンパス 協生館(神奈川県横浜市)
- メモ: ブログページ集合において、ポスト(書き手コンテンツ)は全てのページに出現するが、コメント(読者コンテンツ)は必ずしもそうではないという傾向に着目しました。要素識別子を用いることにより、ページ内の部分の場所を一般化し、適切にポストとコメントを分離できることを示しました。
- つくばリポジトリ(無償公開)
- 教師情報を必要としないWebページ群の主要コンテンツ自動抽出
- 吉田光男, 山本幹雄
- 第23回人工知能学会全国大会(JSAI 2009)
- 2009年6月17日(水)~19日(金) at サンポートホール高松(香川県高松市)
- メモ: DEIM2009の手法をブログページに適用して実験を行ない、約90%の抽出性能がある事を示しました。
- つくばリポジトリ(無償公開)
- 教師情報を必要としないWebページ群のコンテンツ自動抽出ツールの提案
- 吉田光男, 山本幹雄
- 第1回データ工学と情報マネジメントに関するフォーラム(DEIM 2009)
- 2009年3月8日(日)~10日(火) at ヤマハリゾートつま恋(静岡県掛川市)
- メモ: 卒業研究の内容をまとめたものです。あるページのコンテンツは他のページに出現しないというシンプルなアイデアを実装し、ニュースサイトに対して約95%の抽出性能がある事を示しました。
- つくばリポジトリ(無償公開)
全国大会・研究会(ポスター発表)

Photo by Mikio Yamamoto

Photo by Makoto Okamoto
- 対象サービスに特化した日本語Webスペルチェッカーの開発 (データチャレンジ)
- 角田孝昭, 澤田健都, 吉田光男
- 第3回楽天研究開発シンポジウム
- 2010年12月18日(土) at 楽天タワー2号館(東京都品川区)
- 最優秀データチャレンジ賞
- 草の根リポジトリ My Open Archive
- 吉田光男
- 第12回図書館総合展/学術情報オープンサミット2010
- 2010年11月24日(水)~11月26日(金) at パシフィコ横浜(神奈川県横浜市)
- メモ: My Open Archive の活動内容をポスター発表形式で紹介しました。また、25日(木)に開催されるL-1グランプリ2010(チーム No.3 Lie / Project Lie)にも出場しました。
- 国家指導者のtwitterレトリック ―バラク・オバマと鳩山由紀夫の対照比較―
- 松本明日香, 吉田光男
- 2010年度日本政治学会研究大会
- 2010年10月9日(土)~11日(月) at 中京大学 名古屋キャンパス(愛知県名古屋市)
- メモ: 政治学分野の方との共同研究です。定量分析(コーパス分析)を担当しました。
- ブログページ集合からのポスト及びコメントの自動抽出
- 吉田光男, 乾孝司, 山本幹雄
- 言語処理学会第16回年次大会(NLP 2010)
- 2010年3月8日(月)~3月12日(金) at 東京大学 本郷キャンパス(東京都文京区)
- リンクを含むつぶやきに着目したTwitterの分析
- 吉田光男, 乾孝司, 山本幹雄
- 第2回データ工学と情報マネジメントに関するフォーラム(DEIM 2010)
- 2010年2月28日(日)~3月2日(火) at 淡路夢舞台国際会議場(兵庫県淡路市)
- つくばリポジトリ(無償公開)
- ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
- 吉田光男, 乾孝司, 山本幹雄
- Webとデータベースに関するフォーラム(WebDB Forum)2009
- 2009年11月19日(木)~20日(金) at 慶應義塾大学 日吉キャンパス 協生館(神奈川県横浜市)
- つくばリポジトリ(無償公開)
- CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得
- 吉田光男, 乾孝司, 山本幹雄
- Webとデータベースに関するフォーラム(WebDB Forum)2009
- 2009年11月19日(木)~20日(金) at 慶應義塾大学 日吉キャンパス 協生館(神奈川県横浜市)
- メモ: 楽天研究開発シンポジウム2009の事前審査により、推薦されました。
- 教師情報を必要としないWebページ群のコンテンツ自動抽出ツールの提案
- 吉田光男, 山本幹雄
- 第1回データ工学と情報マネジメントに関するフォーラム(DEIM 2009)
- 2009年3月8日(日)~10日(火) at ヤマハリゾートつま恋(静岡県掛川市)
- 優秀インタラクティブ賞
- つくばリポジトリ(無償公開)
招待講演等
- 自然言語処理における企業と大学と学生の関係
- 言語処理学会第17回年次大会(NLP 2011)
- 2011年3月1日(金) at 豊橋技術科学大学(愛知県豊橋市)
- 開発運営を続ける楽しさ ~ニュース検索サイト CEEK.JP NEWS の開発を通じて~
- 静岡大学 大学院GP 講演会
- 2010年7月5日(月) at 静岡大学 浜松キャンパス(静岡県浜松市)
- 実況・感想ツイート一覧
- Web検索エンジンと共に
- 筑波大学 情報メディア創成学類 フレッシュマン・セミナー
- 2010年6月9日(水) at 筑波大学 春日エリア(茨城県つくば市)
- 技術系サービスができるまで“日本発の検索エンジン”
- 第2回WAZA CTOセミナー
- 2006年7月29日(土) at 東京国際フォーラム(東京都千代田区)
学位論文
- ブログページ集合からのポスト及びコメント自動分離抽出手法の研究
- 平成22年度 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻 修士学位論文
- 2011年3月
- 教師情報を必要としないWebページ群のコンテンツ自動抽出
- 平成20年度 筑波大学第三学群情報学類 卒業研究論文
- 2009年3月
ソフトウェア・デモシステム
その他
- 第17回WI2研究会 学生参加報告
- 第17回Webインテリジェンスとインタラクション研究会(SIG-WI2)の参加報告
- 2010年4月
被引用文献
私の執筆した論文を引用している論文リストです。提案手法のどの部分が注目されたのかがわかるかと思います。
- 湯本 高行. Web上のハウツー情報の構成要素の抽出. 情報処理学会研究報告, Val.2011-DBS-153, No.3, pp.1-6, 2011.
- 田崎 雄一郎, 福原 知宏, 佐藤 哲司. 複数Webページの注目領域を対象とした情報探索と集約手法の提案. 情報アクセスシンポジウム2011, Val.2011, No.6, pp.17-22, 2011.
- 斉藤 隆太, 石野 亜耶, 難波 英嗣, 竹澤 寿幸. 新聞記事とWebからのイベント情報の自動抽出. 第20回Webインテリジェンスとインタラクション研究会, 2011.
- 池田 和史, 柳原 正, 服部 元, 松本 一則, 小野 智弘, 滝嶋 康弘. HTML要素に基づく有害サイト検出手法. 情報処理学会論文誌, Val.52, No.8, pp.2474-2483, 2011.
- 服部 哲, 速水 治夫. 位置情報を含むツイートを効率的に発掘するための基本方式の検討. DICOMO2011シンポジウム, 2011.
- 有光 淳紀, 馬 強, 吉川 正俊. ユーザー体験指向のTwitter検索手法. 第3回データ工学と情報マネジメントに関するフォーラム (DEIM 2011), 2011.
- 森尻 惇宜史, 片山 太一, 石井 聡一, 宇津呂 武仁, 河田 容英, 福原 知宏. スプログの収集におけるHTML構造の類似性およびアフィリエイトの分析. 第3回データ工学と情報マネジメントに関するフォーラム (DEIM 2011), 2011.
- 田沼 勇輝, 鈴木 政巳, 小林 亜樹. Twitterにおける特定分野に「濃い」アカウントの発見手法. 第3回データ工学と情報マネジメントに関するフォーラム (DEIM 2011), 2011.
- 新谷 歩生, 関 洋平, 佐藤 哲司. 投稿間隔に基づくマイクロブログからの話題チャンク抽出に関する一検討. 第3回データ工学と情報マネジメントに関するフォーラム (DEIM 2011), 2011.
- 上野 大樹,安村 通晃. VoiTwi: スマートフォンのジェスチャー操作を用いた音声Twitterシステムの提案と実装. インタラクション2011予稿集, pp.401-404, 2011.
- 黒澤 義明, 竹澤 寿幸. マイクロブログサービスの返信行動に着目した投稿及びユーザの分類. 言語処理学会第17回年次大会発表論文集, pp.460-463, 2011.
- 松尾 潤, 川村 秀憲, 鈴木 恵二. Twitterのコメント分析による広告の推薦. 情報処理学会研究報告, Val.2011-ICS-1, No.4, pp.1-6, 2011.
- 山下澄枝, 川喜田佑介, 鈴木悦子, 今田美幸, 神山和人, 市川晴久. Twitterのための単語の出現頻度を用いたツイート有益度推定. 電子情報通信学会技術研究報告, AI, 人工知能と知識処理. Val.110, No.301, pp.7-11, 2010.
- Kazushi Ikeda, Tadashi Yanagihara, Kazunori Matsumoto, Yasuhiro Takishima. Detection of Hazardous Information Based on HTML Elements. Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2010 IEEE RIVF International Conference on, 2010.
- 片山 太一, 森尻 惇宜史, 石井 聡一, 宇津呂 武仁, 河田 容英, 福原 知宏. HTML構造の類似性およびアフィリエイトを用いたスプログの分析. Webとデータベースに関するフォーラム (WebDB Forum) 2010, 2010.
- 池田 和史, 柳原 正, 松本 一則, 滝嶋 康弘. HTML要素に着目した違法・有害サイト検出手法の提案と評価. 第9回情報科学技術フォーラム (FIT 2010), 2010.
- 鶴田 雅信, 増山 繁. レイアウト情報を用いたWebページの主要なDOMノードの抽出法. 人工知能学会論文誌, Val.25, No.6, pp.742-756, 2010.
- Lei Fu, Yingju Xia, Yao Meng, Hao Yu. Conditional Random Fields Model for Web Content Extraction. Computing in the Global Information Technology (ICCGI), 2010 Fifth International Multi-Conference on, 2010.
- 田崎 雄一郎, 福原 知宏, 佐藤 哲司. Webページ中の部分領域を対象とした検索システム. 第24回人工知能学会全国大会 (JSAI 2010), 2010.
- 片山 太一, 芳中 隆幸, 宇津呂 武仁, 河田 容英, 福原 知宏. HTML構造を利用した類似スパムブログの収集. 第2回データ工学と情報マネジメントに関するフォーラム (DEIM 2010), 2010.
- 田崎 雄一郎, 佐藤 哲司. Webページの階層的な分割手法と提示に関する一検討. 第2回データ工学と情報マネジメントに関するフォーラム (DEIM 2010), 2010.
- Taichi Katayama, Takayuki Yoshinaka, Takehito Utsuro, Yasuhide Kawada, omohiro Fukuhara. Detecting Splogs using Similarities of Splog HTML Structures. Proceedings of the 4th International Conference on Ubiquitous Information Management and Communication, pp.256-263, 2010.
- 野中 諒志, 湯本 高行, 新居 学, 高橋 豐. Webページの構造と内容の分析による手法掲載部分の抽出. 情報処理学会研究報告, Val.2009-DBS-149, No.15, pp.1-8, 2009.
- 片山 太一, 芳中 隆幸, 宇津呂 武仁, 河田 容英, 福原 知宏. スプログ検出におけるHTML構造の類似性の有効性の評価. 情報処理学会研究報告, Val.2009-DBS-149, No.19, pp.1-8, 2009.
- 片山 太一, 芳中 隆幸, 宇津呂 武仁, 河田 容英, 福原 知宏. 機械学習を用いたスプログ検出におけるHTML構造の類似性の利用. 第12回情報論的学習理論ワークショップ (IBIS 2009), 2009.
- 片山 太一, 宇津呂 武仁, 芳中 隆幸, 河田 容英, 福原 知宏. HTML構造の類似性を利用したスプログ検出方式. NLP若手の会 第4回シンポジウム, 2009.
※上の論文以外での参照を見つけましたら、ご一報いただけると嬉しいです。
受賞・表彰
- 吉田光男. 日本学生支援機構, 特に優れた業績による返還免除(半額), 2011年5月.
- 吉田光男. 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻, 専攻長表彰, 2011年3月.
- 角田孝昭, 澤田健都, 吉田光男. 第3回楽天研究開発シンポジウム, 最優秀データチャレンジ賞, 2010年12月.
- 吉田光男, 乾孝司, 山本幹雄. 楽天研究開発シンポジウム2009, 優秀論文賞, 2009年11月.
- 吉田光男, 山本幹雄. 第1回データ工学と情報マネジメントに関するフォーラム, 優秀インタラクティブ賞, 2009年3月.
メディア掲載
- 漆間泰志. 検索システム、実力PR(JAPAN ITの異才たち). 『日経産業新聞』2010年05月18日, 6面, 2010.
- 福光恵. ネット次世代の原石たち. 『日経クリック』2007年02月08日(日経ベストPC+デジタル, vol.12, no.4), p.21, 2007.
- 田口元. 既存のサービスの不満な点を改良したい――CEEK.JP・吉田光男さん. 『ITmedia』2007年01月30日, 2007.
- 横田真俊. Google Newsに対抗する大学生 ~CEEK.JP 開発者 吉田 光男氏にお聞きする~. 『FPN』2005年01月31日, 2005.
※他にもサービス(CEEK.JP, CEEK.JP NEWS, Simple Fon Maps など)が雑誌にて多数紹介されています。
教育関係
教育歴
- 2010年度 筑波大学 情報メディア創成学類 ティーチング・アシスタント(TA) 情報メディア実験I(日本語形態素解析プログラムの開発)
- 2010年度 筑波大学 情報メディア創成学類 ティーチング・アシスタント(TA) データ構造とアルゴリズム実習
- 2009年度 筑波大学 情報メディア創成学類 ティーチング・アシスタント(TA) 情報メディア実験I(日本語形態素解析プログラムの作成)
- 2009年度 筑波大学 情報メディア創成学類 ティーチング・アシスタント(TA) データ構造とアルゴリズム実習
連絡先
- ceekz [at] mibel (dot) cs {dot} tsukuba [dot] ac (dot) jp
- Skype
- ceekz_skype
所属・活動
筑波大学
- 大学院 システム情報工学研究科 コンピュータサイエンス専攻 博士後期課程(博士)1年
- 知能情報・生体工学研究室 自然言語処理グループ(山本研, 自然言語処理 on the Web 研究室)
- 日本学術振興会 特別研究員(DC1)
学会
- 情報処理学会 (学生会員, 2006-)
- 人工知能学会 (学生会員, 2009-)
- 日本データベース学会 (学生会員, 2009-)
- 言語処理学会 (学生会員, 2009-)
- 言語処理学会第17回年次大会 (NLP2011) 併設ワークショップ「自然言語処理における企業と大学と学生の関係」 プログラム委員

