講演名 | 2018-12-10 [招待講演]音声認識の方法論の変遷と展望 河原 達也(京大), |
---|---|
PDFダウンロードページ | ![]() |
抄録(和) | 音声認識の方法論は深層学習、特にEnd-to-Endモデルの導入で大きく変わりつつある。本稿では、従来の方法論を概観し、End-to-Endモデルに至るまでの変遷を述べる。単語単位のEnd-to-EndモデルであるAcoustic-to-Wordモデルは、音響特徴量系列から単語列を直接求めるもので、音響モデルと言語モデルを内包し、発音辞書や複雑な認識プログラムを必要としない革新的な方式である。この方式の課題と解決法についても述べる。 |
抄録(英) | The methodology of speech recognition has been changing due to the introduction of deep learning, in particular end-to-end modeling. This article gives a brief overview of the conventional methodologies leading to the end-to-end models. Word-based end-to-end model, referred to as acoustic-to-word model, directly converts a sequence of acoustic features into a word sequence. This model contains acoustic and language models, and does not require a pronunciation lexicon and a complex decoding program. The problems of this new promising model and current solutions are also described. |
キーワード(和) | 音声認識 / End-to-Endモデル / Acoustic-to-Wordモデル |
キーワード(英) | Speech Recognition / End-to-End Model / Acoustic-to-Word Model |
資料番号 | SP2018-48 |
発行日 | 2018-12-03 (SP) |
研究会情報 | |
研究会 | NLC / IPSJ-NL / SP / IPSJ-SLP |
---|---|
開催期間 | 2018/12/10(から3日開催) |
開催地(和) | 早稲田大学西早稲田キャンパス |
開催地(英) | Waseda Univ. Nishiwaseda Campus |
テーマ(和) | 第5回自然言語処理シンポジウム & 第20回音声言語シンポジウム |
テーマ(英) | The 5th Natural Language Processing Symposium & The 20th Spoken Language Symposium |
委員長氏名(和) | 榊 剛史(ホットリンク) / / 山下 洋一(立命館大) |
委員長氏名(英) | Takeshi Sakaki(Hottolink) / / Yoichi Yamashita(Ritsumeikan Univ.) |
副委員長氏名(和) | 吉田 光男(豊橋技科大) / 嶋田 和孝(九工大) / / 李 晃伸(名工大) |
副委員長氏名(英) | Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Kazutaka Shimada(Kyushu Inst. of Tech.) / / Akinobu Ri(Nagoya Inst. of Tech.) |
幹事氏名(和) | 渡辺 靖彦(龍谷大) / 東中 竜一郎(NTT) / / 南條 浩輝(京大) / 坂野 秀樹(名城大) |
幹事氏名(英) | Yasuhiko Watanabe(Ryukoku Univ.) / Ryuichiro Higashinaka(NTT) / / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.) |
幹事補佐氏名(和) | 小早川 健(NHK) / 坂地 泰紀(東大) / / 郡山 知樹(東工大) / 小橋川 哲(NTT) |
幹事補佐氏名(英) | Takeshi Kobayakawa(NHK) / Hiroki Sakaji(Univ. of Tokyo) / / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing |
---|---|
本文の言語 | JPN |
タイトル(和) | [招待講演]音声認識の方法論の変遷と展望 |
サブタイトル(和) | Acoustic-to-Wordモデルを中心に |
タイトル(英) | [Invited Talk] Review of Automatic Speech Recognition Methodology |
サブタイトル(和) | Outlook of Acoustic-to-Word Model |
キーワード(1)(和/英) | 音声認識 / Speech Recognition |
キーワード(2)(和/英) | End-to-Endモデル / End-to-End Model |
キーワード(3)(和/英) | Acoustic-to-Wordモデル / Acoustic-to-Word Model |
第 1 著者 氏名(和/英) | 河原 達也 / Tatsuya Kawahara |
第 1 著者 所属(和/英) | 京都大学(略称:京大) Kyoto University(略称:Kyoto Univ.) |
発表年月日 | 2018-12-10 |
資料番号 | SP2018-48 |
巻番号(vol) | vol.118 |
号番号(no) | SP-354 |
ページ範囲 | pp.25-30(SP), |
ページ数 | 6 |
発行日 | 2018-12-03 (SP) |