講演名 2010-12-21
音声セグメントを考慮したSTRAIGHTスペクトログラムの非負値行列因子分解(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
小関 真, 間野 一則,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,STRAIGHTにおけるスペクトログラムの圧縮のための音声のセグメントに着目した非負値行列因子分解の新しい枠組みを提案する.非負値行列因子分解は,非負値制約を用いて行列を分解する手法であり,初期値の設定手法や制約条件により分解された行列に特徴を持たせることができる.しかし,非負値行列因子分解を例えば一文の音声のスペクトログラム全体に適用した場合,スペクトログラム全体での因子分解の誤差最小化を行うため,音素によってスペクトルのレベルが高い場合,その音素に重みが偏ってしまう.レベルが高いスペクトルはよく近似できるが,レベルが低いスペクトルは重みが偏ってしまうことで最適な値に近似できない可能性がある.そこで,音声セグメントの特徴に基づいてクラスタ化し,クラスタごとに最適な基底スペクトルを定めスペクトログラムをモデル化する.
抄録(英) In this paper, we propose a new framework of non-negative matrix factorization (NMF) applied to segmental speech for spectrogram compression in STRAIGHT. Non-negative matrix factorization is a matrix decomposition method using non-negative constraints, and it is possible to extract various characteristic features as the form of decomposed matrix by controlling the initial values and the constraints of optimization measures. If an NMF is applied to a whole sentence, higher levels of some specific phoneme spectra would be involuntarily biased. In this case, although the higher-level spectra can be well approximated, the lower-level spectra may not be well approximated. The proposed method performs NMF based on the characteristics of speech segments. It is shown that the obtained spectrogram model provides better basis spectra for each cluster than normal NMF and mel-cepstral representations.
キーワード(和) STRAIGHT / 非負値行列因子分解 / 音声セグメント
キーワード(英) STRAIGHT / Non-negative matrix factorization / speech segment
資料番号 NLC2010-27,SP2010-100
発行日

研究会情報
研究会 SP
開催期間 2010/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 音声セグメントを考慮したSTRAIGHTスペクトログラムの非負値行列因子分解(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
サブタイトル(和)
タイトル(英) Non-negative matrix factorization of segmental STRAIGHT speech spectrograms
サブタイトル(和)
キーワード(1)(和/英) STRAIGHT / STRAIGHT
キーワード(2)(和/英) 非負値行列因子分解 / Non-negative matrix factorization
キーワード(3)(和/英) 音声セグメント / speech segment
第 1 著者 氏名(和/英) 小関 真 / Makoto KOSEKI
第 1 著者 所属(和/英) 芝浦工業大学システム理工学部
College of Systems Engineering and Science, Shibaura Institute of Technology
第 2 著者 氏名(和/英) 間野 一則 / Kazunori MANO
第 2 著者 所属(和/英) 芝浦工業大学システム理工学部
College of Systems Engineering and Science, Shibaura Institute of Technology
発表年月日 2010-12-21
資料番号 NLC2010-27,SP2010-100
巻番号(vol) vol.110
号番号(no) 357
ページ範囲 pp.-
ページ数 6
発行日