新聞記事読み上げ音声コーパス

JNAS: Japanese Newspaper Article Sentences



本コーパスは日本語大語彙連続音声認識研究を目的とした 毎日新聞記事文を読み上げた音声コーパスです。概要は以下の通りです。より詳しい コーパスの内容は「コーパスの解説」をご覧下さい。

新聞記事読み上げ音声コーパスの概要
話者男女各153名(計306名)
読み上げテキスト 新聞記事文155セット(約100文/セット, 計16,176文)
音素バランス文10セット(約50文/セット, 計503文)
文数/話者 新聞記事文1セット
音素バランス文 1セット
総発話数 新聞記事文 31,938発話
音素バランス文 15,372発話
録音時間(新聞記事文) 215,247秒(約59時間47分)
収録サイト 39機関
収録マイク headsetとdesktopの2本のマイクで2チャンネル収録
音声データ A/D 16bit量子化, 16kHzサンプリング
ヘッダ NIST Sphere
圧縮 Shorten
メディア DVD-R 6枚


音声収録・CD-ROM編集: 日本音響学会 音声データベース調査委員会

文選択・読み付与: 情報処理学会 音声言語情報処理研究連絡会 大語彙連続音声認識研究用データベースWG

問い合わせ先: 国立情報学研究所 音声資源コンソーシアム

現在、日本音響学会の会員に対して実費による配布を行っております。

コーパスの解説(日本語)

Explanation of JNAS(english)


バグファイル一覧
ファイル名のみ    詳しい情報付き(話者ごと)

零の含まれるデータ一覧    音素バランス文のサブセットのバグ


評価用データセット

評価用データセットに関するおわびと訂正

評価用データセット(各語彙男女各100文)

評価用データセット(L++男女各500文)