講演名 | 2014-12-16 Multiple Non-negative Matrix Factorizationを用いた多対一声質変換(ポスター・デモセッション,第16回音声言語シンポジウム) 相原 龍, 滝口 哲也, 有木 康雄, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本報告では,非負値行列因子分解(NMF)を拡張したMultiple Non-negative Matrix Factorization(Multi-NMF)を提案し,任意話者の発話を特定話者の発話へと変換する多対一声質変換を行う.従来,声質変換は入力話者の声質を出力話者のものへ変換する話者変換を目的として広く研究されてきた.声質変換において最も一般的な手法は混合正規分布モデル(GMM)を用いた統計的手法であり,統計的声質変換の枠組みは複数の事前収録話者から構成されるパラレルデータセットを用いて,任意の話者から他の任意の話者への変換へと拡張されている.一方,統計的声質変換に代わる手法としてNMFを用いたExemplar-based声質変換がある.この手法は,NMFが有する雑音除去機能と,Exemplar-based手法がもつ変換音声の自然性保持という利点から研究が進められている.しかしながら,NMF声質変換においては入力話者と出力話者のパラレルデータの存在が前提であり,これまでは任意話者からの声質変換は不可能であった.そこで本報告では,Multi-NMFによる,入力話者の発話データを学習せずとも変換できる多対一声質変換を提案する.入力話者の発話スペクトルは,事前に学習された複数の話者の発話スペクトルの線形和で表現され,その結合重み係数を用いて目標話者の発話スペクトルへと変換される.この手法は,多対多声質変換や,話者性を制御可能な声質変換へと応用可能であると考えられる. |
抄録(英) | Voice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control. |
キーワード(和) | 声質変換 / 音声合成 / 非負値行列因子分解 / Exemplar-based / 多対一 |
キーワード(英) | Voice Conversion / Speech synthesis / Non-negative Matrix Factorization / Exemplar-based / Many-to-one |
資料番号 | SP2014-114 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2014/12/8(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | Multiple Non-negative Matrix Factorizationを用いた多対一声質変換(ポスター・デモセッション,第16回音声言語シンポジウム) |
サブタイトル(和) | |
タイトル(英) | Many-to-one Voice Conversion using Multiple Non-negative Matrix Factorization |
サブタイトル(和) | |
キーワード(1)(和/英) | 声質変換 / Voice Conversion |
キーワード(2)(和/英) | 音声合成 / Speech synthesis |
キーワード(3)(和/英) | 非負値行列因子分解 / Non-negative Matrix Factorization |
キーワード(4)(和/英) | Exemplar-based / Exemplar-based |
キーワード(5)(和/英) | 多対一 / Many-to-one |
第 1 著者 氏名(和/英) | 相原 龍 / Ryo AIHARA |
第 1 著者 所属(和/英) | 神戸大学システム情報学研究科 Graduate School of System Informatics, Kobe University |
第 2 著者 氏名(和/英) | 滝口 哲也 / Tetsuya TAKIGUCHI |
第 2 著者 所属(和/英) | 神戸大学自然科学系先端融合研究環 Organization of Advanced Science and Technology, Kobe University |
第 3 著者 氏名(和/英) | 有木 康雄 / Yasuo ARIKI |
第 3 著者 所属(和/英) | 神戸大学自然科学系先端融合研究環 Organization of Advanced Science and Technology, Kobe University |
発表年月日 | 2014-12-16 |
資料番号 | SP2014-114 |
巻番号(vol) | vol.114 |
号番号(no) | 365 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |