講演名 | 2023-03-01 日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出 伊藤 葵(LINE/法政大), 小松 達也(LINE), 藤田 雄介(LINE), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本稿は日本語音声認識モデルの語彙集合分割とマルチタスク学習による目的語彙抽出法を提案する.提案手法では, ある語彙集合の系列, たとえばカタカナのみからなる系列を抽出したい場合, 目的のカタカナ系列に加えてカタカナ以外の系列に関しても損失を算出しマルチタスク学習を行う. 相補的な系列に対する損失を組み合わせることで, 目的語彙のみを用いた単一タスクでの学習よりも高い精度での目的語彙抽出が可能となる. 実験では, 音声認識モデル出力の後処理による目的語彙のフィルタリングや目的語彙のみのシングルタスク学習よりも高い精度での抽出が可能であることを示す. |
抄録(英) | This paper proposes a target vocabulary extraction method for Japanese speech recognition models based on vocabulary set decomposition and multi-task learning. In the proposed method, when a certain vocabulary set, e.g., a series consisting only of katakana, is to be extracted, multi-task learning is performed by calculating the losses for the target katakana sequence and the non-katakana sequence. By combining the losses for the complementary sequence, the target vocabulary can be extracted with higher accuracy than in single-task learning using only the target vocabulary. Experiments show that the proposed method can extract the target vocabulary more accurately than the target vocabulary filtering and the single-task learning method using only the target vocabulary. |
キーワード(和) | 自動音声認識 / CTC / Self-Conditioned CTC / 目的語彙抽出 |
キーワード(英) | Automatic speech recognition / CTC / Self-Conditioned CTC / target vocabulary extraction |
資料番号 | EA2022-102,SIP2022-146,SP2022-66 |
発行日 | 2023-02-21 (EA, SIP, SP) |
研究会情報 | |
研究会 | SP / IPSJ-SLP / EA / SIP |
---|---|
開催期間 | 2023/2/28(から2日開催) |
開催地(和) | 沖縄県立博物館・美術館 |
開催地(英) | |
テーマ(和) | 音声,応用/電気音響, 信号処理,一般 |
テーマ(英) | |
委員長氏名(和) | 戸田 智基(名大) / 戸田 智基(名大) / 古家 賢一(大分大) / 田中 聡久(東京農工大) |
委員長氏名(英) | Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.) |
副委員長氏名(和) | / / 加古 達也(NTT) / 小野 順貴(都立大) / 市毛 弘一(横浜国大) / 仲地 孝之(琉球大学) |
副委員長氏名(英) | / / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.) |
幹事氏名(和) | 増村 亮(NTT) / 中鹿 亘(電通大) / 増村 亮(NTT) / 中鹿 亘(電通大) / 若山 圭吾(NTT) / 西浦 敬信(立命館大) / 田中 雄一(東京農工大) / 京地 清介(北九州市大) |
幹事氏名(英) | Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu) |
幹事補佐氏名(和) | 相原 龍(三菱電機) / 齋藤 大輔(東大) / 相原 龍(三菱電機) / 齋藤 大輔(東大) / 中山 雅人(大阪産業大) / 矢田部 浩平(東京農工大) / 吉田 太一(電通大) / 今泉 祥子(千葉大) |
幹事補佐氏名(英) | Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing |
---|---|
本文の言語 | JPN |
タイトル(和) | 日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出 |
サブタイトル(和) | |
タイトル(英) | Vocabulary-Set Decomposition and Multi-task Learning for Target Vocabulary Extraction in Japanese Speech Recognition |
サブタイトル(和) | |
キーワード(1)(和/英) | 自動音声認識 / Automatic speech recognition |
キーワード(2)(和/英) | CTC / CTC |
キーワード(3)(和/英) | Self-Conditioned CTC / Self-Conditioned CTC |
キーワード(4)(和/英) | 目的語彙抽出 / target vocabulary extraction |
第 1 著者 氏名(和/英) | 伊藤 葵 / Aoi Ito |
第 1 著者 所属(和/英) | LINE株式会社/法政大学(略称:LINE/法政大) LINE Corporation/Hosei University(略称:LINE/Hosei Univ.) |
第 2 著者 氏名(和/英) | 小松 達也 / Tatsuya Komatsu |
第 2 著者 所属(和/英) | LINE株式会社(略称:LINE) LINE Corporation(略称:LINE) |
第 3 著者 氏名(和/英) | 藤田 雄介 / Yusuke Fujita |
第 3 著者 所属(和/英) | LINE株式会社(略称:LINE) LINE Corporation(略称:LINE) |
発表年月日 | 2023-03-01 |
資料番号 | EA2022-102,SIP2022-146,SP2022-66 |
巻番号(vol) | vol.122 |
号番号(no) | EA-387,SIP-388,SP-389 |
ページ範囲 | pp.159-164(EA), pp.159-164(SIP), pp.159-164(SP), |
ページ数 | 6 |
発行日 | 2023-02-21 (EA, SIP, SP) |