講演名 2019-10-26
不均衡データを考慮したDNNに基づくささやき声検出
芦原 孝典(NTT), 篠原 雄介(NTT), 佐藤 宏(NTT), 森谷 崇史(NTT), 松井 清彰(NTT), 山口 義和(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,ニューラルネットワークを利用して,発話単位でささやき声もしくは非ささやき声のどちらかを2値分類するタスクに取り組む.これまで,このようなタスクにおいては,十分量のささやき声データに加え,それと同程度の非ささやき声データを用い識別モデルを学習することで,高精度なささやき声/非ささやき声識別を実現出来ていた.しかしながら,上述のようにささやき声データを十分量収集するのは,一般的にコストが高くなり困難である.そこで,少量のささやき声データに加え,大量収集が比較的容易な非ささやき声データをそのまま利用し,2クラスの不均衡データ分布としてニューラルネットワークを学習させる.ただし,不均衡データを普通に学習させると,一般的に識別結果が大きく偏ってしまうため,特に本稿においては,class-aware sampling と呼ばれるオーバーサンプリングを用いることで,この問題を緩和させた.本手法を評価するために,コンデンサーマイクに加え,実環境での動作を想定しスマートフォンマイクも介して,複数マイク距離で音声収録した.実験結果から,発話単位でのニューラルネットワークにおいて,均衡データで学習した場合と比べ,不均衡データで学習した場合の方が精度改善することを報告する.
抄録(英) In this paper, we present a neural whispered-speech detection technique that offers utterance-level classification of whispered and non-whispered speech exhibiting imbalanced data distributions. Previous studies have shown that machine learning models trained on a large amount of whispered and non-whispered utterances perform remarkably well for whispered speech detection. However, it is often difficult to collect large numbers of whispered utterances. In this paper, we propose a method to train neural whispered speech detectors from a small amount of whispered utterances in combination with a large amount of non-whispered utterances. In doing so, special care is taken to ensure that severely imbalanced datasets can effectively train neural networks. Specifically, we use a class-aware sampling method for training neural networks. To evaluate the networks, we gather test samples recorded by both condenser and smartphone microphones at different distances from the speakers to simulate practical environments. Experiments show the importance of imbalanced learning in enhancing the performance of utterance level classifiers.
キーワード(和) ささやき声 / vocal effort / ディープニューラルネットワーク / 不均衡データ学習 / class-aware sampling
キーワード(英) whispered speech / vocal effort / deep neural networks / imbalanced learning / class-aware sampling
資料番号 SP2019-26,WIT2019-25
発行日 2019-10-19 (SP, WIT)

研究会情報
研究会 WIT / SP
開催期間 2019/10/26(から2日開催)
開催地(和) 第一工業大学 4号館1階大会議室
開催地(英) Daiichi Institute of Technology
テーマ(和) 音声と福祉情報工学,一般
テーマ(英)
委員長氏名(和) 若月 大輔(筑波技大) / 河井 恒(NICT)
委員長氏名(英) Daisuke Wakatsuki(Tsukuba Univ. of Tech.) / Hisashi Kawai(NICT)
副委員長氏名(和) 酒向 慎司(名工大) / 李 晃伸(名工大)
副委員長氏名(英) Shinji Sakou(Nagoya Inst. of Tech.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 半田 隆志(埼玉県産業技術総合センター) / 塩野目 剛亮(帝京大) / 雨宮 智浩(NTT) / 南條 浩輝(京大) / 小川 哲司(早大)
幹事氏名(英) Takashi Handa(Saitama Industrial Tech. Center) / Takeaki Shionome(Teikyo Univ.) / Tomohiro Amemiya(NTT) / Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.)
幹事補佐氏名(和) 宮城 愛美(筑波技術大) / 細野 美奈子(産総研) / 菅野 亜紀(名大) / 郡山 知樹(東工大) / 井島 勇祐(NTT)
幹事補佐氏名(英) Manabi Miyagi(Tsukuba Univ. of Tech.) / Minako Hosono(AIST) / Aki Sugano(Nagoya Univ.) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Well-being Information Technology / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 不均衡データを考慮したDNNに基づくささやき声検出
サブタイトル(和)
タイトル(英) Neural Whispered Speech Detection with Imbalanced Learning
サブタイトル(和)
キーワード(1)(和/英) ささやき声 / whispered speech
キーワード(2)(和/英) vocal effort / vocal effort
キーワード(3)(和/英) ディープニューラルネットワーク / deep neural networks
キーワード(4)(和/英) 不均衡データ学習 / imbalanced learning
キーワード(5)(和/英) class-aware sampling / class-aware sampling
第 1 著者 氏名(和/英) 芦原 孝典 / Takanori Ashihara
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 2 著者 氏名(和/英) 篠原 雄介 / Yusuke Shinohara
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 3 著者 氏名(和/英) 佐藤 宏 / Hiroshi Sato
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 4 著者 氏名(和/英) 森谷 崇史 / Takafumi Moriya
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 5 著者 氏名(和/英) 松井 清彰 / Kiyoaki Matsui
第 5 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 6 著者 氏名(和/英) 山口 義和 / Yoshikazu Yamaguchi
第 6 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
発表年月日 2019-10-26
資料番号 SP2019-26,WIT2019-25
巻番号(vol) vol.119
号番号(no) SP-250,WIT-251
ページ範囲 pp.51-56(SP), pp.51-56(WIT),
ページ数 6
発行日 2019-10-19 (SP, WIT)