日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出

伊藤 葵; 小松 達也; 藤田 雄介

講演名	2023-03-01 日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出伊藤葵(LINE/法政大), 小松達也(LINE), 藤田雄介(LINE),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿は日本語音声認識モデルの語彙集合分割とマルチタスク学習による目的語彙抽出法を提案する.提案手法では, ある語彙集合の系列, たとえばカタカナのみからなる系列を抽出したい場合, 目的のカタカナ系列に加えてカタカナ以外の系列に関しても損失を算出しマルチタスク学習を行う. 相補的な系列に対する損失を組み合わせることで, 目的語彙のみを用いた単一タスクでの学習よりも高い精度での目的語彙抽出が可能となる. 実験では, 音声認識モデル出力の後処理による目的語彙のフィルタリングや目的語彙のみのシングルタスク学習よりも高い精度での抽出が可能であることを示す.
抄録(英)	This paper proposes a target vocabulary extraction method for Japanese speech recognition models based on vocabulary set decomposition and multi-task learning. In the proposed method, when a certain vocabulary set, e.g., a series consisting only of katakana, is to be extracted, multi-task learning is performed by calculating the losses for the target katakana sequence and the non-katakana sequence. By combining the losses for the complementary sequence, the target vocabulary can be extracted with higher accuracy than in single-task learning using only the target vocabulary. Experiments show that the proposed method can extract the target vocabulary more accurately than the target vocabulary filtering and the single-task learning method using only the target vocabulary.
キーワード(和)	自動音声認識 / CTC / Self-Conditioned CTC / 目的語彙抽出
キーワード(英)	Automatic speech recognition / CTC / Self-Conditioned CTC / target vocabulary extraction
資料番号	EA2022-102,SIP2022-146,SP2022-66
発行日	2023-02-21 (EA, SIP, SP)

研究会情報
研究会	SP / IPSJ-SLP / EA / SIP
開催期間	2023/2/28(から2日開催)
開催地（和）	沖縄県立博物館・美術館
開催地（英）
テーマ（和）	音声，応用／電気音響, 信号処理，一般
テーマ（英）
委員長氏名（和）	戸田智基(名大) / 戸田智基(名大) / 古家賢一(大分大) / 田中聡久(東京農工大)
委員長氏名（英）	Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
副委員長氏名（和）	/ / 加古達也(NTT) / 小野順貴(都立大) / 市毛弘一(横浜国大) / 仲地孝之(琉球大学)
副委員長氏名（英）	/ / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名（和）	増村亮(NTT) / 中鹿亘(電通大) / 増村亮(NTT) / 中鹿亘(電通大) / 若山圭吾(NTT) / 西浦敬信(立命館大) / 田中雄一(東京農工大) / 京地清介(北九州市大)
幹事氏名（英）	Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu)
幹事補佐氏名（和）	相原龍(三菱電機) / 齋藤大輔(東大) / 相原龍(三菱電機) / 齋藤大輔(東大) / 中山雅人(大阪産業大) / 矢田部浩平(東京農工大) / 吉田太一(電通大) / 今泉祥子(千葉大)
幹事補佐氏名（英）	Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語	JPN
タイトル（和）	日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出
サブタイトル（和）
タイトル（英）	Vocabulary-Set Decomposition and Multi-task Learning for Target Vocabulary Extraction in Japanese Speech Recognition
サブタイトル（和）
キーワード(1)（和/英）	自動音声認識 / Automatic speech recognition
キーワード(2)（和/英）	CTC / CTC
キーワード(3)（和/英）	Self-Conditioned CTC / Self-Conditioned CTC
キーワード(4)（和/英）	目的語彙抽出 / target vocabulary extraction
第 1 著者氏名（和/英）	伊藤葵 / Aoi Ito
第 1 著者所属（和/英）	LINE株式会社/法政大学(略称：LINE/法政大) LINE Corporation/Hosei University(略称：LINE/Hosei Univ.)
第 2 著者氏名（和/英）	小松達也 / Tatsuya Komatsu
第 2 著者所属（和/英）	LINE株式会社(略称：LINE) LINE Corporation(略称：LINE)
第 3 著者氏名（和/英）	藤田雄介 / Yusuke Fujita
第 3 著者所属（和/英）	LINE株式会社(略称：LINE) LINE Corporation(略称：LINE)
発表年月日	2023-03-01
資料番号	EA2022-102,SIP2022-146,SP2022-66
巻番号（vol）	vol.122
号番号（no）	EA-387,SIP-388,SP-389
ページ範囲	pp.159-164(EA), pp.159-164(SIP), pp.159-164(SP),
ページ数	6
発行日	2023-02-21 (EA, SIP, SP)