乾(inui -at- cs.tsukuba.ac.jp),山本(myama -at- cs.tsukuba.ac.jp)
本実験では,文書分類プログラムの開発を通じて,言語データ(人間が日常生活で使っている日本語や英語等の言語が記述されたデータ)を計算機上で処理する過程を体験的に学習することを目的とします.文書分類の技術は,例えば,受信メールを通常メールかスパムメールかに自動分類するスパムフィルタや,子供に悪影響を与える可能性のある暴力的であったりアダルトなコンテンツの閲覧を制御するWebページのペアレンタル・コントロールの実現に必要であり,現在の情報社会にとって必須な技術であると言えます.
さて,人間が文書を分類する場合は,文書を読んで内容を理解し,内容に基づいて文書を適切なカテゴリに分類すれば良いですが,(残念ながら)今のところ,計算機には日本語や英語等の人間が使う言語を理解できません.ではどうするか? このような問題を実験を通じて考えていきます.
本実験では,具体的には,以下の2つの手法を取り上げ,文書自動分類の処理過程を学んでいきます.
また,受講生の学習状況に応じて,より発展的なアプローチも取り上げる予定です.
必要に応じて配布します.→ 配布資料・性能評価
知識・自然言語処理(3,4年生; 1学期)
文字列処理が中心となるため,Perl や Ruby 等のプログラミング言語を習得していると,スムーズに実験に取り組むことができます.提供するサンプル・プログラムはRuby で記述する予定です.