講演名 2007/12/13
始終端特徴パラメータの線形結合による調音結合の分析(一般(ポスターセッション),第9回音声言語シンポジウム)
西 宏之, ヴァン・ドン グエン,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 調音結合は,人間の音声生成機構の構造的特徴とその運動能力に起因し,人間同士の音声言語コミュニケーションにおいて,音声の明瞭性および自然性を与える重要な現象であると考えられる.しかしながら,音声認識の立場から見ると,調音結合は音声の特徴パラメータが連続的に変化することを意味し,音素や音節などの言語的情報と特徴パラメータとの写像関係が不明確となることから,認識処理の困難さの原因の一つとなっている.従来の音声認識手法では,上記調音結合の問題を解決するために,前後の音素環境を考慮した音素HMMを用いるなど,大量のデータに基づく統計・確率的な手法が主流であった.これらのシステムでは,学習データが十分に提供できるアプリケーションでは高い認識率を確保できるという特長がある反面,十分な量の学習データが準備できない場合や,外来語などで従来にない音素の連続を含む単語などが出現した場合に,対応が困難となるという問題がある。また,調音結合を,ある音素から別の音素への遷移過程と見た場合に,どのような軌跡により音響空間内を移動しているのかという知見が陽に得られないという点も問題である.本報告は,2重母音を対象とし,第1母音から第2母音への遷移を詳細に分析するとともに,その知見をもとに,調音結合を,始点と終点の特長パラメータの線形結合で表現することを試みたものである.さらに,第1母音から第2母音に至る途中に,おどり場としての特長パラメータの存在を仮定するモデル(おどり場モデル)に基づく調音結合モデルを提案する.
抄録(英) The co-articulation is originated in a structural feature of human body and the moving ability of man's speech generation mechanism and is thought to be an important phenomenon to give distinctness and the naturalness of speech in oral communications. However, the co-articulation is one of the causes of the difficulty of speech recognition because feature parameters change continuously, and the relationship between language information and the feature parameters becomes indefinite. This report describes the analysis result of the transition from the 1st vowel to the 2nd one in detail for the diphthong, and using the analysis results, proposes Landing Model that assumes the feature parameters go through the landing on the way from the 1st vowel to the 2nd vowel.
キーワード(和) 音声認識 / 音節HMM / 特定話者 / 話者適応 / トレーニング
キーワード(英) speech recognition / syllable HMM / speaker dependent / speaker adjustment / training
資料番号 NLC2007-63,SP2007-126
発行日

研究会情報
研究会 SP
開催期間 2007/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 始終端特徴パラメータの線形結合による調音結合の分析(一般(ポスターセッション),第9回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Analysis of co-articulation using linear combination of characteristic parameters in the first and the last frames
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) 音節HMM / syllable HMM
キーワード(3)(和/英) 特定話者 / speaker dependent
キーワード(4)(和/英) 話者適応 / speaker adjustment
キーワード(5)(和/英) トレーニング / training
第 1 著者 氏名(和/英) 西 宏之 / Hiroyuki NISHI
第 1 著者 所属(和/英) 崇城大学情報学部
SOJO University Conputers and Infomations Science Department
第 2 著者 氏名(和/英) ヴァン・ドン グエン / DON Nguyen VAN
第 2 著者 所属(和/英) 崇城大学情報学部
SOJO University Conputers and Infomations Science Department
発表年月日 2007/12/13
資料番号 NLC2007-63,SP2007-126
巻番号(vol) vol.107
号番号(no) 406
ページ範囲 pp.-
ページ数 6
発行日