日本音響学会 新聞記事読み上げ音声コーパス

1997.6.18
2001.4.17

1 概要

 このコーパスは、毎日新聞記事とATR 音素バランス503文を306人の話者(男女そ れぞれ153名)が読み上げたデータとそのテキストを含む16枚のCD-ROMから構成さ れている。発話はすべて日本語である。
 毎日新聞から抽出された155セット(各セット約100文)は、男女各1名の話者に よって読み上げられている。また、すべての話者はATR音素バランス文のサブセッ ト(50文)のいずれか1つを読み上げた。すなわち、話者1名あたり約150文、 コーパス全体では約45,000文の発話を収録している。
 各発話は2つのマイクロホンで収録された。1つはヘッドセットマイク(すべて の収録機関でSennheiser HMD410/HMD25-1 またはそれと同等のマイクを用いた)で あり、もう1つは卓上型マイク(これは収録機関により異なる Sanken, Sony など) である。これらの2つのマイクで収録されたデータは別々のファイルとしてCD- ROMに納められている。2つのデータはCD-ROMディレクトリ構造が互いに対応する ように構成されている。前半の8枚(Vol.1からVol.8)はヘッドセットマイクによ るデータ、後半の8枚(Vol.9からVol.16)は卓上型マイクによるデータが格納さ れている。
 音声波形は16kHzサンプリング、16bit量子化でAD変換されており、後述の圧縮形 式でCD-ROMに格納されている。
 コーパスは音声データの文字転記と、読み上げテキストを選ぶときに用いたバイ グラム言語モデルを含んでいる。これらのデータはNo.1とNo.9のCD-ROMにある。
 このコーパスは、日本音響学会 音声データベース調査委員会(1990年7月発足) によって検討され、39機関の協力により音声データを収録して構築された。そのた め、ローパス・フィルタやAD変換の特性は完全には一致していない。

2. 毎日新聞記事読み上げテキスト

 1991年から1994年版の「CD毎日新聞」の記事を用いて、情報処理学会 音声言語 情報処理研究連絡会 大語彙連続音声認識研究用データベース ワーキンググループ (1995年11月発足)によって、155セットの読み上げ用テキストセットが作成された。
 1991年1月から1994年9月まで45ヶ月間の毎日新聞記事とそれに対応するRWCPテキ ストデータベースの形態素情報(RWC-TEXT-DB-95-1,機械による自動的な形態素解 析結果)を用いて、バイグラム言語モデルが推定された。バイグラムモデルの推定 にはCMU SLP toolkitが使われた。このバイグラムモデルを用いて、1994年10月か ら1994年12月までの3ヶ月間の記事中の文を、30種類の統計的な特徴を持つカテゴ リに分類した。それぞれのカテゴリは文の長さ(2種類)と語彙サイズ(5種類)、 および文の複雑さ(3種類)によって特徴付けられている。
 それぞれのカテゴリより、表1に示す数の文を集めて、合計90文から成る読み上 げテキスト(SC文)を構成した。これを150回繰り返して150個のテキストセットを 作り、さらにそれぞれに2,3の段落の中から選ばれた連続する文(約10文)を加え て最終的な読み上げテキスト150セット(それぞれ約100文)を作成した。また、こ れとは別に、記事中で連続する文を複数の段落から集めた読み上げテキストを5セ ット作成し(それぞれ、100〜150文)、合計155セットの読み上げテキストを準備し た。

                     表1: 各分類カテゴリから集められた文数

                     LENGTH = NORMAL                 LENGTH = LONG
              PERP=P_L  PERP=P_M  PERP=P_H    PERP=P_L PERP=P_M PERP=P_H
   VOC=MID        2         6         2           1        3        1
   VOC=MID+       2         6         2           1        3        1
   VOC=LAR        4        12         4           2        6        2
   VOC=LAR+       2         6         2           1        3        1
   VOC=LAR++      2         6         2           1        3        1


           VOC=MID:        5k voc. without an unknown word
           VOC=MID+:       5k voc. with one unknown word
      
                  LENGTH=NORMAL:  5-19 morphemes 
                  LENGTH=LONG:   20-39 morphemes
                  PERP=P_L:       0 <  perplexity < 40
                  PERP=P_M:      40 <= perplexity < 85
                  PERP=P_H:      85 <= perplexity < 400

           VOC=LAR:       20k voc. without an unknown word
           VOC=LAR+:      20k voc. with one unknown word
           VOC=LAR++:     20k voc. with two or more unknown words
      
                  LENGTH=NORMAL:  5-29 morphemes 
                  LENGTH=LONG:   30-39 morphemes
                  PERP=P_L:       0 <  perplexity < 70
                  PERP=P_M:      70 <= perplexity < 130
                  PERP=P_H:     130 <= perplexity < 400


3. ATR 音素バランス 503文

 この音素バランス文は株式会社エイ・ティ・アール自動翻訳電話研究所によって 作成された。
 2音素連鎖(CV(120種),VC(227種),VV(55種),計402種)および一部の3音素連鎖 (CVC(69種、ただしCは無声破裂音、無声摩擦音)、CVC(18種、ただしCは鼻子音)、 VCV(136種、ただしCは半母音),計223種)について、これらの音素環境が同じ割 合で含まれるようにするため、これらの出現を独立と見なしてエントロピ−を定 義した。文の母集団としては、新聞、雑誌、小説、手紙、教科書等から無作為に 10,196文を抽出し、これから上述の基準に従ってエントロピーが最大になるよう に音素バランス 503文を選んだ。これは 50 文を1セットとして音素バランスが とれるよう配慮されている。

4. 転記

 読み上げ音声に対応する2種類のテキストを添付している。1つはルビ付きの新 聞記事で、これは読み上げ用テキストとして使われた。ファイルはTeXフォーマット である。もう1つは、発話の仮名あるいはローマ字表記のテキストであり、読み 上げ用のテキストの読みだけを取り出し、さらに各収録機関からの情報を元に、読 みの修正を加えたテキストである。

5. CD-ROMのファイル形式

 CD-ROMはISO-9660標準でフォーマットされている。また、音声波形は16kHzサン プリング、16-bit量子化でAD変換されている。これらの音声波形にはNIST SPHERE ヘッダが付けられ、Tony Robinson(Cambridge University and SoftSound Limited, UK)によって開発された Shorten圧縮技術(the NIST SPHERE PACKAGEに実装されて いるプログラムを用いた)で圧縮されたファイルとして格納されている。圧縮ファ イルの解凍、あるいはヘッダを削除するためには、anonymous ftpで最新のバージ ョンを得てSPHERE PACKAGEのユーティリティを使えばよい*)。

URL=ftp://jaguar.ncsl.nist.gov/pub/sphere_x.x.tar.Z


1997年6月

板橋秀一


*) 2001.4.17現在の最新バージョンはsphere_2.6a.tar.Z。このバージョンで 動作確認されているプラットフォームは以下の通り(保証するものではありません)。
・SUN OS 4.1.X
・SUN Solaris OS 5.4
・SGI IRIX Release 5.3
・DEC OSF/1 V2.0
・HP Unix
・NEXT OS
・IBM AIX

音声データのCopyright(C): 板橋 秀一(日本音響学会/編), 1997

新聞記事のCopyright(C): 毎日新聞社, 1991-1994

形態素情報のCopyright(C): 技術研究組合 新情報処理開発機構, 1996

ATR音素バランス503文のCopyright(C): 株式会社 エイ・ティ・アール 自動翻訳電話研究所, 1988


日本音響学会 新聞記事読み上げ音声コーパス(16巻)

音声データベース著作権代表者:板橋 秀一

編集:(社)日本音響学会 音声データベース調査委員会

発行元:(社)日本音響学会 東京都渋谷区代々木2-7-7

協力機関名:
大阪大学
京都工芸繊維大学
京都大学
静岡大学
信州大学
千葉大学
筑波大学
帝京科学大学
電気通信大学
東京大学
同志社大学
東北大学
豊橋技術科学大学
名古屋大学
奈良先端科学技術大学院大学
山形大学
山梨大学
龍谷大学
早稲田大学
電子技術総合研究所
株式会社エイ・ティ・アール音声翻訳通信研究所
NTT基礎研究所
NTTデータ通信株式会社
NTTヒューマンインターフェース研究所音声情報研究部
NTTヒューマンインターフェース研究所古井特別研究室
沖電気工業株式会社
キヤノン株式会社
国際電信電話株式会社
三洋電機株式会社
シャープ株式会社
ソニー株式会社
株式会社東芝
日本電気株式会社
株式会社日立製作所
株式会社富士通研究所
松下技研株式会社
三菱電機株式会社
株式会社明電舎
株式会社リコー

謝辞:
読み上げテキストと言語モデルは、情報処理学会 音声言語情報処理研究連絡会、 大語彙連続音声認識研究用データベース ワーキンググループによって作成された。 音声ファイルへのヘッダの付与はthe Spoken Natural Language Processing Group, National Institute of Standards and Technology, U.S.A.で開発された SPHERE packageを用いた。音声ファイルの圧縮にはTony Robinson(Cambridge University and SoftSound Limited)によって開発されたShorten圧縮技術を用いた。
上記グループおよび個人に感謝いたします。

CD-ROM作成: メディアドライブ株式会社