（M01）情報メディア創成学類情報メディア実験
（T-4）情報科学類知能情報メディア実験

１．テーマ：Web文書分類

２．関連分野：自然言語処理

３．実施学期：秋学期ABC

４．実施場所：オンライン

５．受け入れ人数：公式資料を参照してください。

６．担当

乾（inui -at- cs.tsukuba.ac.jp）

７．お知らせ

初回のオンライン集合場所は秋学期の開始が近づいてから受講生にメールで案内します。
自前PC or 大学の計算機へリモート接続の、どちらかの環境で実験をおこなって頂きます。

８．実験概要

目標

自然言語処理とは，日本語や英語のように人間が使用する言語で書かれたテキストを計算機で処理する技術である．本実験では，日本語テキストを対象とした文書分類の実験を通して，テキストデータの前処理／基本的な文書分類法／文書分類のための様々な特徴量について体験的に学習することを目標とする．

レビュー分類

Webを介したEコマースやSNSの発展により，商品やサービスの利用者の感想が書かれたユーザレビュー文書（以下，レビュー）がWeb上に蓄積されるようになった．レビューは，人間が読める量を上回るペースで日々生成されるため，活用するためにはレビュー自動解析技術が不可欠である．本実験では，自動解析技術のうち，レビューを対象にした文書分類（レビュー分類）技術に焦点を当てて実験をおこなう．レビュー分類とは，レビューをその内容に従ってカテゴリ分類する処理である．

アルゴリズム

人間が文書を分類するには，文書を読んで内容を理解し，内容に基づいて文書を適切なカテゴリに分類すれば良い．しかし，（大規模言語モデルの発展により計算機による人間のような言語理解が実現しつつあるものの）計算機には日本語や英語等の人間が使う言語を人間と同じようには理解できない．本実験では，以下の分類アルゴリズムを取り上げ，文書自動分類の処理過程を学習する．

k近傍法
ナイーブベイズ法
ロジスティック回帰

また，受講生の学習状況に応じて，より発展的な話題も取り上げる．

９．達成目標

文書分類課題を題材に計算機によるテキストデータの処理方法を理解し，説明できるようになる．また，３種類の機械学習アルゴリズムのプログラム実装を経験することで，各アルゴリズムの特徴を踏まえて適切に社会応用できるようになる．

10．使用教材

実験開始以降に資料を配布します．

11．関連科目

知識・自然言語処理（情報メディア創成学類） / 自然言語処理（情報科学類）
パターン認識（情報メディア創成学類）

12．備考

使用言語は Python の予定です．

（M01）情報メディア創成学類 情報メディア実験（T-4）情報科学類 知能情報メディア実験