講演名 2023-11-23
[招待講演]音声情報抽出に有効な聴覚表現:理論・測定・推定・応用
入野 俊夫(和歌山大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 電話の音声を聞いただけで、大人か子供かすぐわかり、話者の身長(寸法)を推定できる。同時に話者寸法にかかわらず、発話内容も認識できる。ソースフィルタ理論によると、声道形状情報(フィルタ特性)と声帯振動情報(ソース特性)がたたみ込まれて音声は生成される。音聲連鎖(speech chain)を踏まえると、聴覚系はその逆問題を解いていると推測される。この問題の解決のために、安定化ウェーブレット-メリン変換(SWMT)を提案した。この背景となる、寸法知覚実験の結果を示し、末梢系の聴覚モデルだけでは結果が説明できず、SWMTから導出したSSI weightというスペクトル重み関数が有効であることを示す。さらにMRI測定から得られた声道長の推定問題について触れ、推定精度の低いメルスペクトル表現であってもSSI weightをかけるだけで、精度が向上することを示す。さらに、SWMTとガンマチャープ聴覚フィルタの理論的な最適性と、その特性の実験による測定と推定に関して述べる。
抄録(英) Just by listening to the voice on a telephone, we can immediately tell whether the caller is an adult or a child, and we can estimate the speaker's height (size). At the same time, we can recognize the content of the speech regardless of the size of the speaker. According to the source-filter theory, speech sounds are generated by combining information about the shape of the vocal tract (filter characteristics) and the vibration of the vocal folds (source characteristics).Based on the speech chain theory, the auditory system could be assumed to solve the inverse problem. To model the mechanism, we proposed the Stabilized Wavelet-Mellin Transform (SWMT). As a background, we present the results of size perception experiments and show that the results cannot be explained by peripheral auditory models alone and that the spectral weight function, SSI weight, derived from the SWMT is effective. We also discuss how the SSI weight can improve the accuracy of vocal tract length estimates obtained from MRI measurements. Furthermore, we discuss the theoretical optimality of the SWMT and the gammachirp auditory filter. Finally, we mention the experimental measurement and estimation of their characteristics.
キーワード(和) ソースフィルタ理論 / 音聲連鎖 / 寸法知覚 / 安定化ウェーブレットメリン変換 / ガンマチャープフィルタ
キーワード(英) Source-filter theory / Speech chain / Size perception / Stabilized Wavelet-Mellin Transform / Gammachirp filter
資料番号 EA2023-46,EMM2023-77
発行日 2023-11-16 (EA, EMM)

研究会情報
研究会 EMM / EA / ASJ-H
開催期間 2023/11/23(から2日開催)
開催地(和) 大学コンソーシアム富山「駅前キャンパス」研修室1
開催地(英)
テーマ(和) <ビギナーズセッション>応用/電気音響,コンテンツ処理,情報ハイディング,聴覚,一般
テーマ(英) [Beginners Session] Engineering/Electro Acoustics, Content Processing, Digital Watermarking, Psychological and Physiological Acoustics, and Related Topics
委員長氏名(和) 新見 道治(九工大) / 小野 順貴(都立大)
委員長氏名(英) Michiharu Niimi(Kyushu Inst. of Tech.) / Junki Ono(Tokyo Metropolitan Univ.)
副委員長氏名(和) 薗田 光太郎(長崎大) / 姜 玄浩(東京高専) / 西浦 敬信(立命館大) / 梶川 嘉延(関西大)
副委員長氏名(英) Kotaro Sonoda(Nagasaki Univ.) / Hyunho Kang(NIT, Tokyo) / Takanobu Nishiura(RitsumeikanUniv.) / Yoshinobu Kajikawa(Kansai Univ.)
幹事氏名(和) 梶山 朋子(広島市大) / 酒澤 茂之(大阪工大) / 若山 圭吾(NTT) / 伊藤 信貴(東大)
幹事氏名(英) Tomoko Kajiyama(Hiroshima City Univ.) / Shieyuki Sakazawa(Osaka Inst. of Tech.) / Keigo Wakayama(NTT) / Nobutaka Ito(Univ. of Tokyo)
幹事補佐氏名(和) 青木 直史(北大) / 中村 和晃(東京理科大) / 中山 雅人(阪産大) / 矢田部 浩平(東京農工大)
幹事補佐氏名(英) Naofumi Aoki(Hokkaido Univ.) / Kazuaki Nakamura(Tokyo Univ. of Science) / Masato Nakayama(OSU) / Kouhei Yatabe(TUAT)

講演論文情報詳細
申込み研究会 Technical Committee on Enriched MultiMedia / Technical Committee on Engineering Acoustics / Auditory Research Meeting
本文の言語 JPN
タイトル(和) [招待講演]音声情報抽出に有効な聴覚表現:理論・測定・推定・応用
サブタイトル(和)
タイトル(英) [Invited Talk] Auditory representation effective for extracting speech information: Theory, measurement, estimation, and applications
サブタイトル(和)
キーワード(1)(和/英) ソースフィルタ理論 / Source-filter theory
キーワード(2)(和/英) 音聲連鎖 / Speech chain
キーワード(3)(和/英) 寸法知覚 / Size perception
キーワード(4)(和/英) 安定化ウェーブレットメリン変換 / Stabilized Wavelet-Mellin Transform
キーワード(5)(和/英) ガンマチャープフィルタ / Gammachirp filter
第 1 著者 氏名(和/英) 入野 俊夫 / Toshio Irino
第 1 著者 所属(和/英) 和歌山大学(略称:和歌山大)
Wakayama University(略称:Wakayama Univ.)
発表年月日 2023-11-23
資料番号 EA2023-46,EMM2023-77
巻番号(vol) vol.123
号番号(no) EA-278,EMM-279
ページ範囲 pp.98-103(EA), pp.98-103(EMM),
ページ数 6
発行日 2023-11-16 (EA, EMM)