もどる

情報メディア創成学類 情報メディア実験
情報科学類 知能情報メディア実験

1.テーマ:日本語形態素解析と文書分類

2.実施学期:秋学期ABC

3.実施場所:第三エリア, 3C113(資料説明をする回は別途教室を指定します.)

4.受け入れ人数:情報メディア創成学類10名,情報科学類 6名

5.担当

6.お知らせ

7.実験概要

自然言語処理とは,日本語や英語のように人間が使用する言語で書かれたテキストを計算機で処理する技術である.本実験では,日本語テキストを対象とした単語分割(専門用語では形態素解析という),および単語分割の結果を利用した文書分類の実験をおこなう.

本実験では,以下を体験的に学習することを目的とする.

日本語形態素解析

日本語テキストは英語等とは異なり,テキスト中の単語境界が明示的ではなく,何をするにもまず単語に分割する必要があるため,日本語単語分割技術は高度な日本語自然言語処理の基本技術となっている. 本実験では,いくつかの分割手法を用いた日本語単語分割システムの作成と,その応用として日本語テキストを入力とする簡単な日英辞書引きシステムを作成する.様々な単語分割手法があるが,本実験では,以下のような単語分割手法を取り上げる(実際に作成するのはこのうちの2つ〜3つ).


文書分類

文書分類は,メールを通常メールかスパムメールかに自動的に仕分けるスパムフィルタや,Webページの閲覧を制御するペアレンタル・コントロールなどにおける核となる要素技術であり,現在の情報社会にとって必須な技術である. 人間が文書を分類するには,文書を読んで内容を理解し,内容に基づいて文書を適切なカテゴリに分類すれば良いわけだが,(残念ながら)今のところ,計算機には日本語や英語等の人間が使う言語を理解できない. 本実験では,以下の2つの手法を取り上げ,文書自動分類の処理過程を学習する.

また,受講生の学習状況に応じて,より発展的な手法も取り上げる.

8.使用教材

10.備考