講演名 2008-12-10
音声の構造的表象と判別分析を用いた単語音声認識(ポスターセッション,第10回音声言語シンポジウム)
朝川 智, 喬 宇, 峯松 信明, 広瀬 啓吉,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声には話者の声道形状の特性,音響機器の特性などの非言語的特徴が不可避的に混入する.近年,これらの非言語的特徴を表現する次元を原理的に保有しない音響的普遍構造が提案されている.これは,音声事象の物理的実体を捨象し,音声事象間の相対量のみをとらえることによって得られる音声の構造的表象である.本論文では,構造的表象に基づく単語音声認識を検討する.その際に問題となる「強すぎる不変性」と「高すぎる次元数」の2つの問題に対処するため,それぞれ特徴量空間分割と線形判別分析による解決法を提案し,それらに基づく単語音声認識実験を行った.連続的に発声された日本語5母音系列および東北大松下単語音声データベースの音韻バランス単語をタスクとして認識実験を行い,音響特徴量の絶対量に基づく従来手法との比較を行った.さらに,意図的に話者性のミスマッチを生じさせた条件下で認識実験を行い,提案手法の頑健性を実験的に検証した.
抄録(英) Non-linguistic factors of speech such as vocal tract sizes and recording devices easily change acoustic features of speech. Recently, a new representation of speech with complete cancelation of these changes has been proposed. This representation discards the absolute properties of speech events and captures only the contrasts among them. As a full set of the contrasts in the events can define a unique geometrical structure, the proposal can be regarded as structural representation. In this paper, the new representation is examined based on two kinds of isolated word recognition tasks, a five-vowel-sequence word set and a phonetically balanced word set. Here, two problems, too strong invariance and too high dimensionality, are solved by multiple stream structuralization and linear discriminant analysis. To compare the conventional method and the proposed one, frequency-warped utterances are also used for testing. The experimental results show the high robustness of our proposed method.
キーワード(和) 音声の構造的表象 / 非言語的特徴 / Bhattacharyya距離 / 線形判別分析 / 孤立単語音声認識
キーワード(英) structural representation of speech / non-linguistic features / Bhattacharyya distance / linear discriminant analysis / isolated word recognition
資料番号 NLC2008-58,SP2008-113
発行日

研究会情報
研究会 NLC
開催期間 2008/12/2(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 音声の構造的表象と判別分析を用いた単語音声認識(ポスターセッション,第10回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Isolated word recognition based on speech structures and discriminant analysis
サブタイトル(和)
キーワード(1)(和/英) 音声の構造的表象 / structural representation of speech
キーワード(2)(和/英) 非言語的特徴 / non-linguistic features
キーワード(3)(和/英) Bhattacharyya距離 / Bhattacharyya distance
キーワード(4)(和/英) 線形判別分析 / linear discriminant analysis
キーワード(5)(和/英) 孤立単語音声認識 / isolated word recognition
第 1 著者 氏名(和/英) 朝川 智 / Satoshi ASAKAWA
第 1 著者 所属(和/英) 東京大学大学院新領域創成科学研究科:(現)ソニー株式会社
Grad. School of Frontier Sciences, Univ. of Tokyo:(Present office)Sony Corp.
第 2 著者 氏名(和/英) 喬 宇 / Yu QIAO
第 2 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Eng., Univ. of Tokyo
第 3 著者 氏名(和/英) 峯松 信明 / Nobuaki MINEMATSU
第 3 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Eng., Univ. of Tokyo
第 4 著者 氏名(和/英) 広瀬 啓吉 / Keikichi HIROSE
第 4 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Grad. School of Info. Sci. and Tech., Univ. of Tokyo
発表年月日 2008-12-10
資料番号 NLC2008-58,SP2008-113
巻番号(vol) vol.108
号番号(no) 337
ページ範囲 pp.-
ページ数 6
発行日