講演名 2005/12/15
HMM音声合成に基づいた話者適応可能な多言語音声合成法 : 開発と評価(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
ラトレ ハビエル, 岩野 公司, 古井 貞熙,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では, 様々な言語を任意の話者の声で音声合成する方法を提案する.本手法は, HMM音声合成に基づいた話者適応可能な多言語音声合成法であり, まず, 様々な話者・様々な言語の音声データを集め, 話者と言語に依存しないHMMを学習する.そして, この音響モデルを少量の特定話者の音声データを使って適応する.適応されたHMMを音声合成に利用することにより, 話者の母国語に関係なく, その話者の声で多種多様な言語を音声合成することができる.言語横断音声合成を行った際の合成音声について, 複数被験者による聴取実験を行った結果, 単一言語の音響モデルと音素マッピングを用いた手法に比べ, 多言語音響モデルを用いる提案手法の方が優れた性能を有することが確認された.学習データに含まれていない言語を合成する場合においても, 我々の手法は単一言語の音響モデルを用いた音声合成に比べ, 同等かそれ以上の性能を有することが確認された.
抄録(英) In this paper we present a method to synthesize multiple languages with any arbitrary voice. Our approach, which we call HMM-based speaker adaptable polyglot synthesis, consists of using speech data from several speakers in multiple languages, to train a single acoustic HMM which is both speaker and language independent (SLI). Then, we create a speaker dependent (SD) acoustic model by adapting the SLI model with a limited amount of speech data from a specific speaker. Such a SD model allows us to synthesize any of the languages used to train the SI model, with the voice of the selected speaker, regardless of the speaker's own language. For cross-lingual synthesis, the performance which we are able to achieve with our method is better than that of other methods based on monolingual acoustic models and phone mapping. Moreover, in the case of languages not included in the training data, our approach equals or surpasses the performance of all the monolingual synthesizers based on languages which were used to train the multilingual one.
キーワード(和) 多言語音声合成 / 話者適応 / 言語横断音声合成 / 音素マッピング
キーワード(英) polyglot synthesis / speaker adaptation / cross-lingual synthesis / phone mapping
資料番号 NLC2005-99,SP2005-132
発行日

研究会情報
研究会 NLC
開催期間 2005/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 ENG
タイトル(和) HMM音声合成に基づいた話者適応可能な多言語音声合成法 : 開発と評価(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) HMM-based speaker adaptable polyglot synthesizer : Development and evaluation
サブタイトル(和)
キーワード(1)(和/英) 多言語音声合成 / polyglot synthesis
キーワード(2)(和/英) 話者適応 / speaker adaptation
キーワード(3)(和/英) 言語横断音声合成 / cross-lingual synthesis
キーワード(4)(和/英) 音素マッピング / phone mapping
第 1 著者 氏名(和/英) ラトレ ハビエル / Javier LATORRE
第 1 著者 所属(和/英) 東京工業大学大学院計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 岩野 公司 / Koji IWANO
第 2 著者 所属(和/英) 東京工業大学大学院計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 古井 貞熙 / Sadaoki FURUI
第 3 著者 所属(和/英) 東京工業大学大学院計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
発表年月日 2005/12/15
資料番号 NLC2005-99,SP2005-132
巻番号(vol) vol.105
号番号(no) 494
ページ範囲 pp.-
ページ数 6
発行日