講演名 2023-11-23
[ポスター講演]大規模事前学習モデルを用いたEnd-to-End音声認識による日本語単語了解度推定
服部 真稀(山形大), 近藤 和弘(山形大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識を利用した音声了解度推定方法の検討として, 大規模事前学習モデルに基づくEnd-to-Endな音声認識で主観評価試験を模擬し, その出力から単語了解度を推定した. 本稿では少数のデータセットで事前学習モデルにファインチューニングすることで目的のタスクを実現し, 特定の試験単語に限定したモデルとして基礎検討を行った. 主観評価との相関や誤差では先行研究を上回る評価が得られ, 将来の汎用的な了解度予測モデルとして期待できる.
抄録(英) As a study of speech intelligibility estimation methods using speech recognition, we simulated a subjective evaluation test using end-to-end speech recognition models based on large-scale pre-training models, and estimated word intelligibility from the output of the models. In this paper, the target task was realized by fine-tuning the pre-trained models with a small number of data sets, and a basic study was conducted as a predictive model limited to specific test words. The correlation and errors with the subjective evaluation are better than the previous studies, and it is expected to be a general-purpose model for predicting intelligibility in the future.
キーワード(和) 音声了解度 / 音声認識
キーワード(英) Speech intelligibility / Speech recognition
資料番号 EA2023-45,EMM2023-76
発行日 2023-11-16 (EA, EMM)

研究会情報
研究会 EMM / EA / ASJ-H
開催期間 2023/11/23(から2日開催)
開催地(和) 大学コンソーシアム富山「駅前キャンパス」研修室1
開催地(英)
テーマ(和) <ビギナーズセッション>応用/電気音響,コンテンツ処理,情報ハイディング,聴覚,一般
テーマ(英) [Beginners Session] Engineering/Electro Acoustics, Content Processing, Digital Watermarking, Psychological and Physiological Acoustics, and Related Topics
委員長氏名(和) 新見 道治(九工大) / 小野 順貴(都立大)
委員長氏名(英) Michiharu Niimi(Kyushu Inst. of Tech.) / Junki Ono(Tokyo Metropolitan Univ.)
副委員長氏名(和) 薗田 光太郎(長崎大) / 姜 玄浩(東京高専) / 西浦 敬信(立命館大) / 梶川 嘉延(関西大)
副委員長氏名(英) Kotaro Sonoda(Nagasaki Univ.) / Hyunho Kang(NIT, Tokyo) / Takanobu Nishiura(RitsumeikanUniv.) / Yoshinobu Kajikawa(Kansai Univ.)
幹事氏名(和) 梶山 朋子(広島市大) / 酒澤 茂之(大阪工大) / 若山 圭吾(NTT) / 伊藤 信貴(東大)
幹事氏名(英) Tomoko Kajiyama(Hiroshima City Univ.) / Shieyuki Sakazawa(Osaka Inst. of Tech.) / Keigo Wakayama(NTT) / Nobutaka Ito(Univ. of Tokyo)
幹事補佐氏名(和) 青木 直史(北大) / 中村 和晃(東京理科大) / 中山 雅人(阪産大) / 矢田部 浩平(東京農工大)
幹事補佐氏名(英) Naofumi Aoki(Hokkaido Univ.) / Kazuaki Nakamura(Tokyo Univ. of Science) / Masato Nakayama(OSU) / Kouhei Yatabe(TUAT)

講演論文情報詳細
申込み研究会 Technical Committee on Enriched MultiMedia / Technical Committee on Engineering Acoustics / Auditory Research Meeting
本文の言語 JPN
タイトル(和) [ポスター講演]大規模事前学習モデルを用いたEnd-to-End音声認識による日本語単語了解度推定
サブタイトル(和)
タイトル(英) [Poster Presentation] **
サブタイトル(和)
キーワード(1)(和/英) 音声了解度 / Speech intelligibility
キーワード(2)(和/英) 音声認識 / Speech recognition
第 1 著者 氏名(和/英) 服部 真稀
第 1 著者 所属(和/英) 山形大学(略称:山形大)
**(略称:**)
第 2 著者 氏名(和/英) 近藤 和弘
第 2 著者 所属(和/英) 山形大学(略称:山形大)
**(略称:**)
発表年月日 2023-11-23
資料番号 EA2023-45,EMM2023-76
巻番号(vol) vol.123
号番号(no) EA-278,EMM-279
ページ範囲 pp.93-97(EA), pp.93-97(EMM),
ページ数 5
発行日 2023-11-16 (EA, EMM)