筑波大学システム情報工学研究科コンピュータサイエンス専攻科目一覧

自然言語処理特論

担当教員
電子メール
オフィスアワー
山本 幹雄(やまもと みきお)
myama@cs.tsukuba.ac.jp
総B908, 月曜11:00-12:00

科目番号
分野
授業形態
02CC040
知能情報工学分野
講義

学期
時限
教室
奇数年度開講




授業概要 日本語や英語等の自然言語を計算機処理する技術(自然言語処理)に関して講義する。特に、大規模コーパス(テキスト・データベース)と確率・統計的な学習手法を利用する手法を中心に学ぶ。

予備知識 入門レベルの確率論、統計学、情報理論の知識。また、最終課題はプログラミングを伴うため、プログラミングの知識が必要である。

授業内容
1.自然言語の統計的な性質
確率論・統計学・情報理論の復習、各種単位(文字、単語、句等)の頻度、ドキュメント頻度、IDF(Inversedocument frequency)、Rdsidual IDF、相互情報量、t-score

2.大規模自然言語テキストにおける各種単位の計数法
ソーティングを用いた手法、Suffix Array、Class Array

3.統計的言語モデル
N-gramモデル、スムージング、頻度ディスカウンティング、隠れマルコフモデル、統計的言語モデルの評価尺度

4.具体的応用例
(以下の中からいくつかを選んで解説する)
 形態素解析、単語のクラスタリング、構文解析、語義の曖昧性解消、統計的機械翻訳、音声認識、情報検索、質問応答(QA)等


教科書 web上のpdfファイル。 (参考書の(1)は本講義の半分程度の内容をカバーする。)

参考書 (1) 北研二、「確率的言語モデル」、東京大学出版会、1999.(3800円+税)
(2) C. D. Manning and H. Schutze, "Foundations of Statistical Natural Language Processing", MIT Press, 1999.

成績評価 宿題(40%), 最終課題(50%), 出席(10%)

ページ先頭へ