情報メディア創成学類 - 情報メディア実験
(じょうほうめでぃあそうせいがくるい - じょうほうめでぃあじっけん)
テーマ:
スパムフィルタなどの文書分類システムの作成
実施学期:
3学期
実施場所:
実習室III
受け入れ人数:
10名
担当:
乾(inui -at- cs.tsukuba.ac.jp),山本(myama -at- cs.tsukuba.ac.jp)
使用教材:
必要に応じて配布します.→ 配布資料
関連科目:
知識・自然言語処理(3,4年生; 1学期)
概要:
本実験では,文書分類システムの作成を通じて,言語データ(人間が日常生活で使っている日本語や英語等の言語が記述されたデータ)を計算機上で処理する過程を体験的に学習することを目的とします.文書分類の技術は,例えば,受信メールを通常メールかスパムメールかに自動分類するスパムフィルタや,子供に悪影響を与える可能性のある暴力的であったりアダルトなコンテンツの閲覧を制御するWebページのペアレンタル・コントロールの実現に必要であり,現在の情報社会にとって必須な技術であると言えます.
さて,人間が文書を分類する場合は,文書を読んで内容を理解し,内容に基づいて文書を適切なカテゴリに分類すれば良いですが,(残念ながら)今のところ,計算機には日本語や英語等の人間が使う言語を理解できません.ではどうするか? このような問題を実験を通じて考えていきます.
本実験では,具体的には,以下の2つの手法を取り上げ,文書自動分類の処理過程を学んでいきます.
- k近傍法(ベクトル空間モデルに従う)
- ナイーブベイズ法(確率モデルに従う)
また,受講生の学習状況に応じて,より発展的なアプローチも取り上げる予定です.
備考:
文字列処理が中心となるため,Perl や Ruby 等のプログラミング言語を習得していると,スムーズに実験に取り組むことができます.
$Id:$
inui -at- cs.tsukuba.ac.jp