授業科目: 自然言語処理(2単位)
Natural Language Processing
対象:3・4学年
第3学期 曜・時:水1・2 担当教官: 山本幹雄

週別授業計画

教材:

 web上に置いた配布資料

概要:

 人間の知識の多くは日本語・英語等の自然言語を使って伝達・蓄積される。 本講義では、計算機に入力・蓄積された自然言語データの意味内容まで踏み込んだ処理を行うための基礎を述べる。自然言語処理における、唯一最大の問題は自然言語文のもつ曖昧性である。自然言語文の解析手法を概説し、各解析段階において曖昧性がどのように生じるかを見ていくと同時に、曖昧性を解消するために必要となる(計算機が持つべき)知識と技法を解説する。

学習・教育目標:

  1. 自然言語処理の概要とその困難性の原因を理解する
  2. 形態素解析(単語分割)における以下の技術項目を理解する
    1. コスト最小法と確率的手法
    2. ビタービアルゴリズム
    3. 単語辞書の効率的な構造とアルゴリズム
  3. 構文解析における以下の技術項目を理解する
    1. 形式言語(文脈自由文法)と基本的な解析方法
    2. 曖昧性をなくすための知識:格フレームと選択制限
  4. 自然言語処理の応用例として機械翻訳システムの概要を理解する

授業計画:

講義内容/理解すべき項目
第1週 自然言語処理入門
自然言語処理とは? 自然言語処理の概要と応用例
実習:形態素解析システム
第2週〜3週 形態素解析手法の様々な手法
ヒューリスティックスによる方法(最長一致法、単語(文節)数最小法)、言語的知識の利用、コスト最小法、確率的手法
実習:形態素解析システム(続き)
第4〜5週 形態素解析のためのアルゴリズム
ビタービアルゴリズム(単語数最小法、コスト最小法、英語の品詞付与)、演習
辞書構造と単語検索(線形探索、二分探索、トライ、パトリシア木)
第6週 自然言語文の構文解析の概要
構文の曖昧性をなくすための種々の方法
実習:構文解析システム
第7〜8週 自然言語文の構文解析
形式言語(文脈自由文法)、文脈自由文法を使った基礎的な解析法
曖昧性をなくすための具体的な方法(ヒューリスティックス、選択制限)
第9〜10週 自然言語処理の応用と雑知識
機械翻訳システムのしくみ(機械翻訳の問題、トランスファー方式、構成性原理)
文字コードの話(電子化文字集合と符号化方式、国際規格、国内規格
実習:機械翻訳システム

参考書等:

 「自然言語処理」長尾真編, 岩波書店(1996) 4800円
 「自然言語処理の基礎」吉村賢治, サイエンス社(2000) 1600円

予備知識・前提条件:

 次の科目の基本概念は本科目の理解に役立つ:情報理論、確率論、知識処理概論I、オートマトンと形式言語、プログラム言語処理。

オフィスアワー:

 月11:00〜12:00 3F806

成績評価:

 レポート(30%)と試験(小テストを含む)(70%)により評価を行う。 毎回出席をとり、最終的な評価の際に考慮に入れる。

教官メールアドレス:

 山本幹雄:myama@is.tsukuba.ac.jp