講演名 | 2018-01-20 複数のネットワークの出力を考慮したDNNベース声質変換手法 藤岡 拓也(日立), 孫 慶華(日立), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 従来の統計ベース声質変換手法は,ソース話者・ターゲット話者音声パラメータ対の関係を全てのフレームについて単一のモデルによって表現しているものが多い.筆者らは,ソース話者音声のフレームごとの状態によって,複数のDNNモデルを使い分けることにより音声パラメータを変換する手法を試みた.その結果,言語情報などの事前知識を学習時に与えることなく各DNNモデルの役割が分化することが確認され,客観指標を用いた評価実験により提案手法の有効性を示すことができた. |
抄録(英) | In many conventional statistical voice conversion methods, the relations of source and target speech on all frames are expressed by using a single model. We proposed a method in which speech parameters are converted by using multiple DNN models. These DNN models are used selectively depending on the state of the source speech in each frame. As a result, the roles of multiple DNN models are differentiated automatically without using prior information (e.g. linguistic features) in the model training phase. Furthermore, the effectiveness of the proposed method was confirmed by the results of an objective evaluation experiment. |
キーワード(和) | 統計ベース声質変換 / ニューラルネットワーク / 音声状態 |
キーワード(英) | Statistical voice conversion / Neural networks / State of speech |
資料番号 | SP2017-68 |
発行日 | 2018-01-13 (SP) |
研究会情報 | |
研究会 | SP / ASJ-H |
---|---|
開催期間 | 2018/1/20(から2日開催) |
開催地(和) | 東京大学 |
開催地(英) | The University of Tokyo |
テーマ(和) | 音声合成,音声コミュニケーション,聴覚,音声一般 |
テーマ(英) | |
委員長氏名(和) | 山下 洋一(立命館大) / 平原 達也(富山県立大) |
委員長氏名(英) | Yoichi Yamashita(Ritsumeikan Univ.) / 平原 達也(富山県立大) |
副委員長氏名(和) | 森 大毅(宇都宮大) / 中川 誠司(千葉大) |
副委員長氏名(英) | Hiroki Mori(Utsunomiya Univ.) / 中川 誠司(千葉大) |
幹事氏名(和) | 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大) |
幹事氏名(英) | Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大) |
幹事補佐氏名(和) | 橋本 佳(名工大) / 小橋川 哲(NTT) |
幹事補佐氏名(英) | Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Speech / Auditory Research Meeting |
---|---|
本文の言語 | JPN |
タイトル(和) | 複数のネットワークの出力を考慮したDNNベース声質変換手法 |
サブタイトル(和) | |
タイトル(英) | DNN Based Voice Conversion Method Considering Outputs of Multiple Networks |
サブタイトル(和) | |
キーワード(1)(和/英) | 統計ベース声質変換 / Statistical voice conversion |
キーワード(2)(和/英) | ニューラルネットワーク / Neural networks |
キーワード(3)(和/英) | 音声状態 / State of speech |
第 1 著者 氏名(和/英) | 藤岡 拓也 / Takuya Fujioka |
第 1 著者 所属(和/英) | 株式会社日立製作所(略称:日立) Hitachi, Ltd.(略称:Hitachi) |
第 2 著者 氏名(和/英) | 孫 慶華 / Sun Qinghua |
第 2 著者 所属(和/英) | 株式会社日立製作所(略称:日立) Hitachi, Ltd.(略称:Hitachi) |
発表年月日 | 2018-01-20 |
資料番号 | SP2017-68 |
巻番号(vol) | vol.117 |
号番号(no) | SP-393 |
ページ範囲 | pp.11-15(SP), |
ページ数 | 5 |
発行日 | 2018-01-13 (SP) |