講演名 2020-03-02
時間反転音声を用いた音声認識のためのデータ拡張
芦原 孝典(NTT), 田中 智大(NTT), 森谷 崇史(NTT), 増村 亮(NTT), 篠原 雄介(NTT), 柏野 牧夫(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識システムにおいて,学習データの音響的な網羅性を可能な限り担保し,過学習を防ぐ事を目的としたアプローチの一つに data augmentation (データ拡張)がある.これは,与えられたオリジナルの学習データに対して何かしらの変動を加え,新しい学習データとして生成することで,より一層の汎化性能を獲得しようとするアプローチである.本稿では,このデータ拡張の音響的変動として,錯聴を用いることを考える.音声に関係のある錯聴はこれまで種々提案されてきているが,その中でも特に時間反転音声 (Locally Time-reversed Speech) を検討した.我々はこれまで音声波形上での時間反転処理を検討してきたが,本稿では更にその発展として,特徴量系列において反転させるアプローチを提案する.音声波形に対する反転とは異なり,特徴量系列において反転させることで新たな追加データ生成が不要となり,学習時にオンラインでのデータ拡張が可能となる.CSJコーパスにおいて,本データ拡張を適用したモデルの評価実験の結果,ベースラインに対し認識率が改善 (8.4%の相対改善率) し本アプローチの有効性を確認した.
抄録(英) Data augmentation is one of the techniques to mitigate overfitting and improve robustness against several acoustic variabilities for the ASR system. This approach is to create artificially augmented data by adding certain types of transformations that maintain the class label for acquiring generalization ability. In this paper, we treat an auditory illusion as the acoustic transformation for the data generation. The auditory illusions related to speech signals have been proposed variously. Among them, we examine a locally time-reversed speech for data augmentation, especially. In our previous research, we proposed temporal reversal processing on a raw waveform directly. In contrast, we propose a method that processes the inversion on a feature sequence in this paper. Instead of the inversion of the raw waveform, the augmentation is able to eliminate the generation of an additional waveform, and thus enables online data creation during training. We applied the augmentation approach on the End-to-End automatic speech recognition task and evaluated the model compared with the baseline model by using CSJ corpus. As a result, the relative performance improvement of 8.4% was observed relative to the baseline.
キーワード(和) 音声認識 / End-to-End / 時間反転音声 / データ拡張 / 錯聴
キーワード(英) automatic speech recognition / End-to-End / locally time-reversed speech / data augmentation / auditory illusion
資料番号 EA2019-110,SIP2019-112,SP2019-59
発行日 2020-02-24 (EA, SIP, SP)

研究会情報
研究会 SP / EA / SIP
開催期間 2020/3/2(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英)
委員長氏名(和) 河井 恒(NICT) / 古家 賢一(大分大) / 相川 直幸(東京理科大)
委員長氏名(英) Hisashi Kawai(NICT) / Kenichi Furuya(Oita Univ.) / Naoyuki Aikawa(TUS)
副委員長氏名(和) 李 晃伸(名工大) / 島内 末廣(金沢工大) / 武岡 成人(静岡理工科大) / 林 和則(阪市大) / 坂東 幸浩(NTT)
副委員長氏名(英) Akinobu Ri(Nagoya Inst. of Tech.) / Suehiro Shimauchi(Kanazawa Inst. of Tech.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / Kazunori Hayashi(Osaka City Univ) / Yukihiro Bandou(NTT)
幹事氏名(和) 南條 浩輝(京大) / 小川 哲司(早大) / 松井 健太郎(NHK) / 小山 翔一(東大) / 中本 昌由(広島大) / 小西 克巳(法政大)
幹事氏名(英) Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.) / Kentaro Matsui(NHK) / Shoichi Koyama(Univ. of Tokyo) / Masayoshi Nakamoto(Hiroshima Univ.) / Katsumi Konishi(Hosei Univ.)
幹事補佐氏名(和) 郡山 知樹(東大) / 井島 勇祐(NTT) / 井本 桂右(立命館大) / 森川 大輔(富山県立大) / 杉本 憲治郎(早大)
幹事補佐氏名(英) Tomoki Koriyama(Univ. of Tokyo) / Yusuke Ijima(NTT) / Keisuke Imoto(Ritsumeikan Univ.) / Daisuke Morikawa(Toyama Pref Univ.) / Kenjiro Sugimoto(Waseda Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語 JPN
タイトル(和) 時間反転音声を用いた音声認識のためのデータ拡張
サブタイトル(和) 特徴量系列における反転
タイトル(英) Data augmentation for ASR system by using locally time-reversed speech
サブタイトル(和) Temporal inversion of feature sequence
キーワード(1)(和/英) 音声認識 / automatic speech recognition
キーワード(2)(和/英) End-to-End / End-to-End
キーワード(3)(和/英) 時間反転音声 / locally time-reversed speech
キーワード(4)(和/英) データ拡張 / data augmentation
キーワード(5)(和/英) 錯聴 / auditory illusion
第 1 著者 氏名(和/英) 芦原 孝典 / Takanori Ashihara
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 2 著者 氏名(和/英) 田中 智大 / Tomohiro Tanaka
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 森谷 崇史 / Takafumi Moriya
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 4 著者 氏名(和/英) 増村 亮 / Ryo Masumura
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 5 著者 氏名(和/英) 篠原 雄介 / Yusuke Shinohara
第 5 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 6 著者 氏名(和/英) 柏野 牧夫 / Makio Kashino
第 6 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
発表年月日 2020-03-02
資料番号 EA2019-110,SIP2019-112,SP2019-59
巻番号(vol) vol.119
号番号(no) EA-439,SIP-440,SP-441
ページ範囲 pp.53-58(EA), pp.53-58(SIP), pp.53-58(SP),
ページ数 6
発行日 2020-02-24 (EA, SIP, SP)