講演名 2018-12-10
読み仮名と韻律記号を入力とする日本語end-to-end音声合成の音質評価
栗原 清(NHK), 清山 信正(NHK), 熊野 正(NHK), 今井 篤(NHK),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 日本語においてend-to-end音声合成を実現するために,Encoder-Decoderモデルの音声合成の入力として,読み仮名と韻律記号を用いる方式を開発した.現在,放送で運用しているDNN (Deep Neural Network)による統計的パラメトリック音声合成では,学習データに文脈依存音素ラベルを利用している.この文脈依存音素ラベルデータは,音素およびその区切り位置,アクセント句の区切り位置およびアクセント型などの情報によって構成されている.これらの情報は,言語解析や自動アライメントなどの処理によって機械的に作成できるが,高品質な合成音を得るためには精度が低いため,人手による修正作業に高いコストが必要となることが課題であった.提案法では,学習データとして音素区切り位置が不要なため,修正作業の中でも特にコストの高い音素区切り位置の修正作業を省略できる.また,読み仮名と韻律記号は片仮名と記号で音声表現を記述する平易な表記法であるため,文脈依存音素ラベルと異なり読み仮名や韻律を直接的に記述・編集することが容易で,専用のソフトウエアを用意せずに簡易なテキストエディタでデータを作成可能である.本稿では,英語において原音と同等の音質と評価されているend-to-end音声合成Tacotron 2の手法に対して,日本語で読み仮名と韻律記号を入力としてEncoder-Decoderモデルを学習し,音声を合成する手法を提案し,主観評価実験によって分析合成と同等の高品質な日本語音声合成を実現できることを確認したので報告する.
抄録(英) The purpose of this study was to conduct end-to-end text-to-speech synthesis in Japanese; we developed a system that uses Japanese kana characters and prosodic symbols as input for text-to-speech synthesis of the encoder-decoder model. Full-context phoneme labels are currently used for learning data in our system of statistical parametric speech synthesis, which uses a deep neural network (DNN) operating on broadcasting content. The data are composed of phonemes, phoneme boundary positions, accents, and accent phrases and are calculated automatically by executing language processing and forced alignment. The problem with this method is the high cost of manual correction for high-quality text-to-speech synthesis. In contrast, the proposed method does not prepare phoneme boundary positions. It was found that the workload of correcting the phoneme boundary position, which is particularly expensive, could be omitted. Japanese kana characters and prosodic symbols are simple description methods for representing speech. Hence, it is possible to directly compose kana and prosody and to arrange data without preparing dedicated software. In this study, we employed Japanese kana characters and prosodic symbols as the input method for text-to-speech synthesis by learning the encoder-decoder model. Subjective evaluation experiments indicated that Japanese text-to-speech results were equivalent in quality to those of synthesis using the acoustic features of the original speech.
キーワード(和) 統計的パラメトリック音声合成 / end-to-end音声合成 / 韻律記号 / Encoder-Decoderモデル
キーワード(英) Statistical parametric speech synthesis / End-to-end speech synthesis / Prosodic symbols / Encoder-Decoder model
資料番号 SP2018-49
発行日 2018-12-03 (SP)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2018/12/10(から3日開催)
開催地(和) 早稲田大学西早稲田キャンパス
開催地(英) Waseda Univ. Nishiwaseda Campus
テーマ(和) 第5回自然言語処理シンポジウム & 第20回音声言語シンポジウム
テーマ(英) The 5th Natural Language Processing Symposium & The 20th Spoken Language Symposium
委員長氏名(和) 榊 剛史(ホットリンク) / / 山下 洋一(立命館大)
委員長氏名(英) Takeshi Sakaki(Hottolink) / / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 吉田 光男(豊橋技科大) / 嶋田 和孝(九工大) / / 李 晃伸(名工大)
副委員長氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Kazutaka Shimada(Kyushu Inst. of Tech.) / / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 東中 竜一郎(NTT) / / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Ryuichiro Higashinaka(NTT) / / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 小早川 健(NHK) / 坂地 泰紀(東大) / / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Takeshi Kobayakawa(NHK) / Hiroki Sakaji(Univ. of Tokyo) / / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 読み仮名と韻律記号を入力とする日本語end-to-end音声合成の音質評価
サブタイトル(和)
タイトル(英) Evaluation of Japanese end-to-end speech synthesis method inputting kana and prosodic symbols
サブタイトル(和)
キーワード(1)(和/英) 統計的パラメトリック音声合成 / Statistical parametric speech synthesis
キーワード(2)(和/英) end-to-end音声合成 / End-to-end speech synthesis
キーワード(3)(和/英) 韻律記号 / Prosodic symbols
キーワード(4)(和/英) Encoder-Decoderモデル / Encoder-Decoder model
第 1 著者 氏名(和/英) 栗原 清 / Kiyoshi Kurihara
第 1 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 2 著者 氏名(和/英) 清山 信正 / Nobumasa Seiyama
第 2 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 3 著者 氏名(和/英) 熊野 正 / Tadashi Kumano
第 3 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 4 著者 氏名(和/英) 今井 篤 / Atsushi Imai
第 4 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
発表年月日 2018-12-10
資料番号 SP2018-49
巻番号(vol) vol.118
号番号(no) SP-354
ページ範囲 pp.89-94(SP),
ページ数 6
発行日 2018-12-03 (SP)