講演名 2008/6/20
スペクトル領域特徴量を用いた音声の構造的表象に関する実験的考察(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
鈴木 雅之, 朝川 智, 喬 宇, 峯松 信明, 広瀬 啓吉,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声には話者の声道形状の特性,音響機器の特性などの非言語的特徴が不可避的に混入するが,近年,これらを表現する次元を原理的に保有しない音響的普遍構造が提案されている.これは,音声事象の物理的実体を捨象し,関係のみを捉えることによって得られる音声の構造的表象である.本稿では,音響的普遍構造を抽出する際に,従来用いられてきたケプストラム領域特徴量ではなく,スペクトル領域特徴量を用いる手法を提案し,それを考察する.提案手法は,スペクトル領域特徴量を用いているために,背景雑音の分離がしやすいという利点がある.また,ヒトの聴覚が周波数解析を行なっていることから,提案する表象はより聴覚系の音声情報表現に近いと考えることができる.本稿では,提案する表象が,従来のケプストラム領域特徴量を用いた構造的表象と同等の強い話者不変性を持つことを実験的に確認し,背景雑音環境下の音声認識における実用性について検討する.さらに,提案手法が雑音駆動音声に対し良好な認識性能を示すことを示し,ヒトの聴覚における音声情報処理との関係についても考察する.
抄録(英) Non-linguistic factors such as morphological differences in vocal tracts inevitably affect acoustic features of speech. Recently, a new speech representation, called as structural representation, was proposed which is completely independent of these factors. In the representation, the absolute property of speech events is totally discarded and their relative property is only captured and modeled. In the previous studies, all the discussions on this new representation were done using cepstrum-based features. In this report, spectrum-based features are used for the structural representation and tested for speech recognition. Mathematical and experimental discussions show the followings. 1) The spectrum-based structural representation also has strong speaker-invariance. 2) It can show a better performance of noisy speech recognition compared to cepstrum-based structures. 3) It shows a rather similar performance to humans when noise vocoded speech samples are tested. Finally, we discuss the validity of the spectrum-based structural speech recognition as a model of human speech perception.
キーワード(和) 音声の構造的表象 / スペクトル領域特徴量 / 音声認識 / 雑音駆動音声 / 聴覚特性
キーワード(英) structural representation of speech / spectrum-based features / automatic speech recognition / noise vocoded speech / auditory characteristics
資料番号 SP2008-32
発行日

研究会情報
研究会 SP
開催期間 2008/6/20(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) スペクトル領域特徴量を用いた音声の構造的表象に関する実験的考察(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
サブタイトル(和)
タイトル(英) Experimental Study of Using Spectrum-based Features for Structural Representation of Speech
サブタイトル(和)
キーワード(1)(和/英) 音声の構造的表象 / structural representation of speech
キーワード(2)(和/英) スペクトル領域特徴量 / spectrum-based features
キーワード(3)(和/英) 音声認識 / automatic speech recognition
キーワード(4)(和/英) 雑音駆動音声 / noise vocoded speech
キーワード(5)(和/英) 聴覚特性 / auditory characteristics
第 1 著者 氏名(和/英) 鈴木 雅之 / M. SUZUKI
第 1 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Engineering, Univ. of Tokyo
第 2 著者 氏名(和/英) 朝川 智 / S. ASAKAWA
第 2 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
第 3 著者 氏名(和/英) 喬 宇 / Y. QIAO
第 3 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Engineering, Univ. of Tokyo
第 4 著者 氏名(和/英) 峯松 信明 / N. MINEMATSU
第 4 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Engineering, Univ. of Tokyo
第 5 著者 氏名(和/英) 広瀬 啓吉 / K. HIROSE
第 5 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Grad. School of Info. Sci. and Tech., Univ. of Tokyo
発表年月日 2008/6/20
資料番号 SP2008-32
巻番号(vol) vol.108
号番号(no) 116
ページ範囲 pp.-
ページ数 6
発行日