お知らせ 研究会の開催と会場に参加される皆様へのお願い(2020年10月開催~)
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2010-01-22 11:00
統計的系列-フレーム写像に基づく音声変換
喬 宇齋藤大輔峯松信明東大CQ2009-98 PRMU2009-197 SP2009-138 MVE2009-120
抄録 (和) 話者変換の目的はある話者の声を別の話者の声に変換することである。これは二つの話者区間において音声時系列のマッピング関数を求めることとして考えられる。GMM を用いた統計的マッピング方法[1], [2] は話者変換のタスクにおいてよく使われている。ただし、GMMを用いた変換技術はフレームからフレームへのマッピング関数を使用しているので、音声時系列のコンテキスト情報が十分には使われていない。HMM は音声時系列の有効なモデルであり、音声認識や音声合成においてよく使われている。本研究はHMM を用いた音声変換を研究対象とする。我々はHMM を用いた回帰、シーケンスからフレームの変換関数を導出した。先行のHMM を用いた音声変換方法[3]~[5] は強制切り出し(forced alignment) によって音声を分割し、各区間に対して変換を行う。それらの方法と異なって,我々の変換関数は線形変換の重みつけの和として導出される。重みは各フレームのHMM 事後確率である。変換パラメータを推定するために、我々は最小2乗誤差基準及びと最大尤度基準を提案した。実験結果は提案手法の有効性を示した。 
(英) Voice conversion, a task to transform one speaker’s voice to another’s, can be regarded as a problem to find a mapping function between voice spaces of two speakers. GMM-based statistical mapping methods [1], [2] have been widely used for voice conversion. However, the classical GMM-based techniques make use of a frame-to-frame mapping function, which largely ignores the contextual information existing over a speech sequence and usually causes over-smoothness of converted speech. It is well known that HMM yields an efficient method to model the density of a whole speech sequence and has found successes in speech recognition and synthesis. Inspired by this fact, this paper studies how to use HMM for voice conversion. We derive an HMM-based sequence-to-frame mapping function with statistical analysis. Different from previous HMM-based voice conversion methods [3]~[5] that used forced alignment for segmentation and transform frames aligned to a state with its associated linear transformation, our method has a soft mapping function as a weighted summation of linear transformations. The weights are calculated as the HMM posterior probabilities of frames. We also propose and compare two methods to learn the parameters of our mapping functions, namely least square error estimation and maximum likelihood estimation. We carried out experiments to examine the proposed HMM-based method for voice conversion.
キーワード (和) 音声変換 / 線形回帰 / シーケンスからフレームへ変換 / 隠れマルコフモデル / / / /  
(英) Voice conversion / linear regression / sequence-to-frame mapping / HMM / / / /  
文献情報 信学技報, vol. 109, no. 375, SP2009-138, pp. 285-290, 2010年1月.
資料番号 SP2009-138 
発行日 2010-01-14 (CQ, PRMU, SP, MVE) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード CQ2009-98 PRMU2009-197 SP2009-138 MVE2009-120

研究会情報
研究会 PRMU SP MVE CQ  
開催期間 2010-01-21 - 2010-01-22 
開催地(和) 京大 
開催地(英) Kyoto Univ. 
テーマ(和) クロスモーダル 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2010-01-PRMU-SP-MVE-CQ 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) 統計的系列-フレーム写像に基づく音声変換 
サブタイトル(和)  
タイトル(英) Statistical sequence-to-frame mapping techniques for voice conversion 
サブタイトル(英)  
キーワード(1)(和/英) 音声変換 / Voice conversion  
キーワード(2)(和/英) 線形回帰 / linear regression  
キーワード(3)(和/英) シーケンスからフレームへ変換 / sequence-to-frame mapping  
キーワード(4)(和/英) 隠れマルコフモデル / HMM  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 喬 宇 / Yu Qiao / チャオ ユイ
第1著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第2著者 氏名(和/英/ヨミ) 齋藤 大輔 / Daisuke Saito / サイト ダイスケ
第2著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第3著者 氏名(和/英/ヨミ) 峯松 信明 / Nobuaki Minematsu / ミネマツ ノブアキ
第3著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2010-01-22 11:00:00 
発表時間 30 
申込先研究会 SP 
資料番号 IEICE-CQ2009-98,IEICE-PRMU2009-197,IEICE-SP2009-138,IEICE-MVE2009-120 
巻番号(vol) IEICE-109 
号番号(no) no.373(CQ), no.374(PRMU), no.375(SP), no.376(MVE) 
ページ範囲 pp.285-290 
ページ数 IEICE-6 
発行日 IEICE-CQ-2010-01-14,IEICE-PRMU-2010-01-14,IEICE-SP-2010-01-14,IEICE-MVE-2010-01-14 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会