Sho Tsugawa's Homepage:情報メディア実験

目次

お知らせ

  • 初回のガイダンスを 10/7 13:00 (12:15 ではありません) にzoomで実施します。アクセス方法の詳細は受講者に個別に連絡します。
  • 2020年度は新型コロナウィルス感染症対策として、オンラインで実施します。
  • 2019年度より enPiT 準拠テーマとして実施します。
  • 2018年度までのページは、こちら

実験テーマ:ソーシャルネットワーク分析 (enPiT 準拠テーマ)

本実験の前半では、人と人との関係をグラフとして表現したソーシャルネットワークの分析手法を学習します。電子メールや SNS (Social Networking Services) のデータなど、実際の人と人との交流の履歴からソーシャルネットワークを構築し、構築したネットワークを分析します。特にネットワークを特徴付ける指標や、中心的なノードの推定手法について演習を通じて学習します。
本実験の後半では、データの収集から分析までの流れを一通り行います。 各自で自由にテーマを設定します。週に1回程度レビューの時間を設けて、教員(や他の学生)からフィードバックを与えながら進めます。enPiT のゲスト講義なども聴講してもらうことを計画しています。
分析のテーマは、学術的な価値や新規性の有無にはとらわれずに、自分達の興味で自由に設定していただいてかまいません。例えば、複数の有名人の Twitter のフォローワー同士のネットワーク構造を比較する、筑波大の学類でウワサが広がりやすいのはどの学類かを分析する、といった自分達に身近なトピックで設定しても構いません。フェイクニュースと科学技術ニュースの拡散の特徴を分析する、といった社会的な問題意識からテーマを設定することもできるでしょう。分析のテーマ設定の方法についても、実験の中でお伝えするつもりですので、春の実験テーマ選びの段階でやりたいことが定まっていなくてもかまいません。

概要

  • 担当教員: 津川 翔
  • 実施学期: 2020年度 秋 ABC
  • 実施場所: オンライン
  • 受け入れ人数:12 人

スケジュール

以下のスケジュールで実験を進めるが、進捗状況によって、スケジュールを変更する可能性がある。
前半 (課題1〜5) は特に時間を定めずに、各自で課題を実施する。ただし、「*」印の付いた日には、同時双方向で教員から課題の説明を実施したり、教員/TA に質問することができる。
データ解析演習は、原則として毎回同時双方向でビデオ通話やチャットに接続した状態 (Discord などを利用) で実施する予定である。
補足資料 (の一部) にアクセスするためのパスワードは実験中に伝える。

日付内容補足資料課題
10/7*、9、ガイダンス、ネットワーク生成モデル、ネットワーク可視化ガイダンス生成モデル生成と可視化課題1
14*、16ネットワークの特徴を表す指標、中心性補足スライド中心性の計算課題2課題3
10/21*、10/23、28*、30コミュニティ抽出、データの収集補足 スライド課題4課題5
11/4*データ解析演習ガイダンス、Research Question の設定データ解析演習
11/11、13、18、20分析計画の立案
12/2、4、9、11、16、18、23、25、1/6、8分析の実施と発表
1/20、22、27、29、2/3ふりかえりとレポート作成

課題に関する補足

  • 「*」印の付いた課題は発展課題である。余力があれば取り組むこと。
  • グラフの生成やグラフの指標の計算には、igraph などのライブラリを利用してもよい。ただし、理解を深めるため、余力があれば自分でも実装してみることをすすめる。
  • 課題を実施するための補足資料やサンプルプログラムは、本ホームページにおいて公開し、必要に応じて実験中に説明を行う。

課題1

課題 1-1

ER モデル、WS モデル、BA モデルによりグラフを生成せよ。
生成したグラフを可視化し、それぞれの特徴を観察せよ。

課題 1-2

各モデルのパラメータを変更し、グラフを生成せよ。
生成したグラフを可視化し、パラメータによってグラフの構造がどのように変化するかを観察せよ。

課題 1-3*

ER モデル、WS モデル、BA モデル以外の生成モデルについて調査し、そのモデルを用いてグラフを生成せよ。
生成したグラフを可視化し、その特徴を観察せよ。

課題2

課題 2-1

ER モデル、WS モデル、BA モデルにより生成したグラフの次数分布をプロットせよ。
線形、対数の 2 通りの軸でプロットせよ。

課題 2-2

ER モデル、WS モデル、BA モデルにより生成したグラフのクラスタリング係数を求めよ。

課題 2-3

ER モデル、WS モデル、BA モデルにより生成したグラフの平均経路長を求めよ。

課題 2-4

課題 2-1〜2-3 で求めた「次数分布」、「クラスタリング係数」、「平均経路長」を用いて、ER モデル、WS モデル、BA モデルにより生成したグラフがそれぞれどのような特徴を有するかまとめて、メールで報告せよ。メール本文に数行程度の分量で良い。提出期限は、10/21 とする。

課題 2-5*

グラフの構造を特徴付ける指標について調査し、各モデルによって生成したグラフにおけるその指標の値を求めよ。

課題3

課題 3-1

ノードの次数中心性、近接中心性、媒介中心性の定義を理解せよ。
いくつかのグラフにおいて、各ノードの次数中心性、近接中心性、媒介中心性の値を求めよ。
ノードを中心性の値によってランキングし、ランキングの上位のノードが中心性の種類によってどのように異なるかを観察せよ。
用いるモデルは何でもよいが、複数のモデルで試すとよい。

課題 3-2

グラフにおける各ノードの中心性の値を計算し、中心性の値が大きいほどノードのサイズが大きくなるように可視化せよ。
異なる中心性、異なるモデルで生成したグラフでいくつか試してみること。
可視化した結果のうちの 1 つを画像ファイルもしくは PDF ファイルの形式でエクスポートして、メールに添付して提出せよ。提出期限は、10/21 とする。

課題 3-3*

次数中心性、近接中心性、媒介中心性、以外の中心性の定義を調査せよ。
調査した中心性の値をいくつかのグラフで計算し、次数中心性、近接中心性、媒介中心性との違いを考察せよ。

課題4

課題 4-1

Twitter ユーザの中で適当なユーザ u を選ぶ。 Twitter API を用いて、ユーザ u のフォローしているユーザのリストを取 得せよ。
まずは、あまりフォローしているユーザの数が多くないユーザを対象とするこ とを勧める。

課題 4-2

課題 4-1 で取得したユーザ集合 (ユーザ u のフォローしているユー ザの集合) に属するユーザのフォローしているユーザのリストを取得せよ。

課題 4-3

課題 4-1 で選んだユーザ u のフォローしているユーザをノード、それらのユー ザ間のフォロー関係をリンクとするネットワーク (ユー ザ u の Ego Network) を構築し、可視化せよ。

課題 4-4

注目するユーザ u を変えて、課題4-1〜4-3の手順でいくつかのユーザの Ego Network を構築し、その特徴を調べよ。
可視化する、クラスタリング係数や平均経路長を計算する、など色々な方法が 考えられる。ユーザの選び方によって、Ego Network の特徴にどのような違い があるだろうか?
対象としたユーザとそれらのユーザの Ego Network の特徴についてレポートにまとめよ。A4で1ページ程度の簡単なものを想定しているが、フォーマット、分量について特に指定はしない。作成したレポートを、メールに添付して提出せよ。提出期限は、11/11 とする。

課題5

課題 5-1

以下のページからZachary's karate clubのデータをダウンロードする。
http://www-personal.umich.edu/~mejn/netdata/
ダウンロードした karate club のネットワークを、Girvan Newman 法を用い てコミュニティに分割し、その結果を可視化せよ。

課題 5-2

ネットワークのデータおよびコミュニティ抽出のアルゴリズムを変更して、課題 5-1 と同様 にコミュニティ抽出の結果を可視化せよ。
以下の web ページにおいて人と人の関係を表現したソーシャルネットワークのデータが公開されている。(他にも、検索すれば見つかる。「ソーシャル」でないネットワークのデータも含まれている)


また、課題4で収集したネットワークを用いてもよい。
可視化した結果のうちの 1 つを画像ファイルもしくは PDF ファイルの形式でエクスポートして、メールに添付して提出せよ。提出期限は、11/11 とする。

データ解析演習

各自で、何らかの Research Question を設定する。設定した Question に答えるために必要なデータとそのデータの分析方法を考案せよ。 さらに自分達でデータを収集、分析し、設定した Question への答えをまとめよ。

Research Question の例としては、以下のようなものがありえるが、自分達の興味に応じて自由に設定してかまわない。Reseach Question の見つけ方についてもレクチャーする予定である。

  • 有名人の Twitter のフォローワー同士のネットワーク構造がどのように異なるか?
  • 筑波大の学類でウワサが広がりやすいのはどの学類か?
  • フェイクニュースや科学技術報道の拡散のされ方にはどのような特徴があるか?

分析方法としては、本実験で学んだソーシャルネットワーク分析の手法を用いることを想定しているが、それにとらわれる必要はない。

過去のテーマ例

  • 情報学群の3学類同士の距離が近い (遠い) 学類はどこか?
  • スポーツイベント中で Twitter 上の投稿の感情がどのように変化するか?

本演習の分析結果は、発表会で発表し、最終レポートにまとめることを予定している。発表およびレポートには以下の内容を含めること。

  • 問題意識 (Research Question の設定に至った背景)
  • Research Questions
  • 分析に用いたデータ
  • 分析方法
  • 分析結果
  • 分析結果の解釈
  • 分析結果に基づく何らかの提案 (もしあれば)

日付: 2020-10-21T13:00+0900

著者: Sho Tsugawa

Validate XHTML 1.0