講演名 2017-03-01
[ポスター講演]DNN音声合成のためのProsodic Word Embeddingの検討
井島 勇祐(NTT), 北条 伸克(NTT), 増村 亮(NTT), 浅見 太一(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では,DNN音声合成のための韻律情報の類似性を考慮したWord Embedding(Prosodic Word Embedding)を提案する.これまで提案されているWord EmbeddingをDNN音声合成に用いる手法では,学習データとしてテキストデータのみを使用しており,得られる単語ベクトルは必ずしも単語間の韻律の類似性とは一致しない.そのため,DNN音声合成のための単語ベクトルとして最適ではないという課題がある.この問題に対し,本論文では,Word Embedding用モデルの学習に音声認識用コーパス等のテキストと音声とが対となった大規模音声コーパスを用いることで,単語とその単語の韻律情報との関係性を学習する.得られた単語ベクトルの比較の結果,提案法により得られた単語ベクトルは,テキストデータのみから得られた単語ベクトルより,類似した韻律情報を持つ単語が類似したベクトルを持つことを示す.また,DNN音声合成における客観評価実験により,テキストデータのみから得られた単語ベクトルと比較し,提案法により得られた単語ベクトルを用いることでF0の生成精度が向上することを示す.
抄録(英) This paper proposed a novel word embeddings with prosodic information (prosodic word embeddings) for DNN-based speech synthesis. There have been several attempts to use word embeddings for DNN-based speech synthesis. However, their word vectors do not necessarily correspond to prosodic similarity because the training data is a large text corpus. To achieve word embeddings which can take prosodic information into account, we utilize a large speech corpus such as speech corpus for automatic speech recognition. By using the corpus, the proposed technique trains the relationship between words and their prosodic information. We perform objective evaluations to compare the performance of the proposed technique with that of the conventional word embeddings. Objective evaluation results indicate that our proposed word embedding technique can generate F0 more accurately compared to the conventional technique.
キーワード(和) 統計的パラメトリック音声合成 / DNN音声合成 / Word Embedding
キーワード(英) Statistical parametric speech synthesis / DNN-based speech synthesis / word embeddings
資料番号 EA2016-109,SIP2016-164,SP2016-104
発行日 2017-02-22 (EA, SIP, SP)

研究会情報
研究会 SP / SIP / EA
開催期間 2017/3/1(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics
委員長氏名(和) 間野 一則(芝浦工大) / 中静 真(千葉工大) / 水町 光徳(九工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.) / Makoto Nakashizuka(Chiba Inst. of Tech.) / Mitsunori Mizumachi(Kyushu Inst. of Tech.)
副委員長氏名(和) 森 大毅(宇都宮大) / 奥田 正浩(北九州市大) / 村松 正吾(新潟大) / 羽田 陽一(電通大) / 島内 末廣(NTT)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / Masahiro Okuda(Univ. of Kitakyushu) / Shogo Muramatsu(Niigata Univ.) / Yoichi Haneda(Univ. of Electro-Comm.) / Suehiro Shimauchi(NTT)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大) / 平林 晃(立命館大) / 宮田 高道(千葉工大) / 堀内 俊治(KDDI研) / 渡邉 貫治(秋田県立大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Akira Hirabayashi(Ritsumeikan Univ.) / Takamichi Miyata(Chiba Inst. of Tech.) / Toshiharu Horiuchi(KDDI R&D Labs.) / Kanji Watanabe(Akita Pref. Univ.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大) / 渡邊 修(拓殖大) / 武岡 成人(静岡理工科大) / TREVINO Jorge(東北大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / TREVINO Jorge(Tohoku Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics
本文の言語 JPN
タイトル(和) [ポスター講演]DNN音声合成のためのProsodic Word Embeddingの検討
サブタイトル(和)
タイトル(英) [Poster Presentation] Prosodic Word Embeddings for DNN-based speech synthesis
サブタイトル(和)
キーワード(1)(和/英) 統計的パラメトリック音声合成 / Statistical parametric speech synthesis
キーワード(2)(和/英) DNN音声合成 / DNN-based speech synthesis
キーワード(3)(和/英) Word Embedding / word embeddings
第 1 著者 氏名(和/英) 井島 勇祐 / Yusuke Ijima
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 2 著者 氏名(和/英) 北条 伸克 / Nobukatsu Hojo
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 増村 亮 / Ryo Masumura
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 4 著者 氏名(和/英) 浅見 太一 / Taichi Asami
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
発表年月日 2017-03-01
資料番号 EA2016-109,SIP2016-164,SP2016-104
巻番号(vol) vol.116
号番号(no) EA-475,SIP-476,SP-477
ページ範囲 pp.153-158(EA), pp.153-158(SIP), pp.153-158(SP),
ページ数 6
発行日 2017-02-22 (EA, SIP, SP)