講演名 2014-06-19
スパース辞書学習による構音障害者の話者性を維持した声質変換(音声分析・合成,聴覚,福祉,音声一般)
相原 龍, 滝口 哲也, 有木 康雄,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,アテトーゼ型脳性麻痺による構音障害者を対象とし,筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す.「自分らしい声で話したい」という障害者のニーズに応えるため,本研究では従来の統計的モデルによる声質変換とは異なる非負値行列因子分解(NMF)を用いたExemplar-based声質変換を用いて,話者性を維持しつつ聞き取りやすい音声に変換する.NMF声質変換では,入力スペクトルは入力話者のexemplarの線形和で表現され,選ばれたexemplarを対応する出力話者のものと置き換えることで変換を行っていた.しかしこれまでのNMF声質変換では,入力話者のexemplarから得られた重み行列をそのまま出力話者の重み行列として用いていた.実際には入力話者の重み行列と出力話者の重み行列は必ずしも一致するわけではなく,この問題が変換音声の劣化を引き起こしていると考えられていた.本研究ではこの問題を解決するため,NMFを用いたスパース辞書学習を行い,入力話者の線形重み行列を出力話者のものに変換するマッピング行列を導入する.提案手法の有効性を評価するため,従来のGaussian Mixture Modelに基づく声質変換,NMF声質変換との比較実験を行った.
抄録(英) We present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movement of such speakers is limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In our previous method, exemplar-based spectral conversion using Non-negative Matrix Factorization (NMF) was applied to a voice with an articulation disorder. To preserve the speaker's individuality, we used a combined dictionary that is constructed from the source speaker's vowels and target speaker's consonants. However, in this exemplar-based approach, source speaker's activity matrix which is estimated from input spectra and source speaker's exemplars are used as target speaker's. In this paper, we propose a sparse dictionary learning method for exemplar-based VC and estimate a mapping matrix between source speaker's activity and target speaker's activity. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional Gaussian Mixture Model (GMM)-based method and a conventional NMF-based method.
キーワード(和) 声質変換 / 構音障害者 / 障害者支援 / 非負値行列因子分解
キーワード(英) Voice Conversion / Articulation Disorders / Asistive Technology / Non-negative Matrix Factorization
資料番号 SP2014-53,WIT2014-8
発行日

研究会情報
研究会 WIT
開催期間 2014/6/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Well-being Information Technology(WIT)
本文の言語 JPN
タイトル(和) スパース辞書学習による構音障害者の話者性を維持した声質変換(音声分析・合成,聴覚,福祉,音声一般)
サブタイトル(和)
タイトル(英) Individuality-preserving Voice Conversion for Articulation Disorders Using Sparse Dictionary Learning
サブタイトル(和)
キーワード(1)(和/英) 声質変換 / Voice Conversion
キーワード(2)(和/英) 構音障害者 / Articulation Disorders
キーワード(3)(和/英) 障害者支援 / Asistive Technology
キーワード(4)(和/英) 非負値行列因子分解 / Non-negative Matrix Factorization
第 1 著者 氏名(和/英) 相原 龍 / Ryo AIHARA
第 1 著者 所属(和/英) 神戸大学システム情報学研究科
Graduate School of System Informatics, Kobe University
第 2 著者 氏名(和/英) 滝口 哲也 / Tetsuya TAKIGUCHI
第 2 著者 所属(和/英) 神戸大学自然科学系先端融合研究環
Organization of Advanced Science and Technology, Kobe University
第 3 著者 氏名(和/英) 有木 康雄 / Yasuo ARIKI
第 3 著者 所属(和/英) 神戸大学自然科学系先端融合研究環
Organization of Advanced Science and Technology, Kobe University
発表年月日 2014-06-19
資料番号 SP2014-53,WIT2014-8
巻番号(vol) vol.114
号番号(no) 92
ページ範囲 pp.-
ページ数 6
発行日