不均衡データを考慮したDNNに基づくささやき声検出

芦原 孝典; 篠原 雄介; 佐藤 宏; 森谷 崇史; 松井 清彰; 山口 義和

講演名	2019-10-26 不均衡データを考慮したDNNに基づくささやき声検出芦原孝典(NTT), 篠原雄介(NTT), 佐藤宏(NTT), 森谷崇史(NTT), 松井清彰(NTT), 山口義和(NTT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿では，ニューラルネットワークを利用して，発話単位でささやき声もしくは非ささやき声のどちらかを２値分類するタスクに取り組む．これまで，このようなタスクにおいては，十分量のささやき声データに加え，それと同程度の非ささやき声データを用い識別モデルを学習することで，高精度なささやき声/非ささやき声識別を実現出来ていた．しかしながら，上述のようにささやき声データを十分量収集するのは，一般的にコストが高くなり困難である．そこで，少量のささやき声データに加え，大量収集が比較的容易な非ささやき声データをそのまま利用し，2クラスの不均衡データ分布としてニューラルネットワークを学習させる．ただし，不均衡データを普通に学習させると，一般的に識別結果が大きく偏ってしまうため，特に本稿においては，class-aware sampling と呼ばれるオーバーサンプリングを用いることで，この問題を緩和させた．本手法を評価するために，コンデンサーマイクに加え，実環境での動作を想定しスマートフォンマイクも介して，複数マイク距離で音声収録した．実験結果から，発話単位でのニューラルネットワークにおいて，均衡データで学習した場合と比べ，不均衡データで学習した場合の方が精度改善することを報告する．
抄録(英)	In this paper, we present a neural whispered-speech detection technique that offers utterance-level classification of whispered and non-whispered speech exhibiting imbalanced data distributions. Previous studies have shown that machine learning models trained on a large amount of whispered and non-whispered utterances perform remarkably well for whispered speech detection. However, it is often difficult to collect large numbers of whispered utterances. In this paper, we propose a method to train neural whispered speech detectors from a small amount of whispered utterances in combination with a large amount of non-whispered utterances. In doing so, special care is taken to ensure that severely imbalanced datasets can effectively train neural networks. Specifically, we use a class-aware sampling method for training neural networks. To evaluate the networks, we gather test samples recorded by both condenser and smartphone microphones at different distances from the speakers to simulate practical environments. Experiments show the importance of imbalanced learning in enhancing the performance of utterance level classifiers.
キーワード(和)	ささやき声 / vocal effort / ディープニューラルネットワーク / 不均衡データ学習 / class-aware sampling
キーワード(英)	whispered speech / vocal effort / deep neural networks / imbalanced learning / class-aware sampling
資料番号	SP2019-26,WIT2019-25
発行日	2019-10-19 (SP, WIT)

研究会情報
研究会	WIT / SP
開催期間	2019/10/26(から2日開催)
開催地（和）	第一工業大学４号館１階大会議室
開催地（英）	Daiichi Institute of Technology
テーマ（和）	音声と福祉情報工学，一般
テーマ（英）
委員長氏名（和）	若月大輔(筑波技大) / 河井恒(NICT)
委員長氏名（英）	Daisuke Wakatsuki(Tsukuba Univ. of Tech.) / Hisashi Kawai(NICT)
副委員長氏名（和）	酒向慎司(名工大) / 李晃伸(名工大)
副委員長氏名（英）	Shinji Sakou(Nagoya Inst. of Tech.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名（和）	半田隆志(埼玉県産業技術総合センター) / 塩野目剛亮(帝京大) / 雨宮智浩(NTT) / 南條浩輝(京大) / 小川哲司(早大)
幹事氏名（英）	Takashi Handa(Saitama Industrial Tech. Center) / Takeaki Shionome(Teikyo Univ.) / Tomohiro Amemiya(NTT) / Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.)
幹事補佐氏名（和）	宮城愛美(筑波技術大) / 細野美奈子(産総研) / 菅野亜紀(名大) / 郡山知樹(東工大) / 井島勇祐(NTT)
幹事補佐氏名（英）	Manabi Miyagi(Tsukuba Univ. of Tech.) / Minako Hosono(AIST) / Aki Sugano(Nagoya Univ.) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Well-being Information Technology / Technical Committee on Speech
本文の言語	JPN
タイトル（和）	不均衡データを考慮したDNNに基づくささやき声検出
サブタイトル（和）
タイトル（英）	Neural Whispered Speech Detection with Imbalanced Learning
サブタイトル（和）
キーワード(1)（和/英）	ささやき声 / whispered speech
キーワード(2)（和/英）	vocal effort / vocal effort
キーワード(3)（和/英）	ディープニューラルネットワーク / deep neural networks
キーワード(4)（和/英）	不均衡データ学習 / imbalanced learning
キーワード(5)（和/英）	class-aware sampling / class-aware sampling
第 1 著者氏名（和/英）	芦原孝典 / Takanori Ashihara
第 1 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 2 著者氏名（和/英）	篠原雄介 / Yusuke Shinohara
第 2 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 3 著者氏名（和/英）	佐藤宏 / Hiroshi Sato
第 3 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 4 著者氏名（和/英）	森谷崇史 / Takafumi Moriya
第 4 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 5 著者氏名（和/英）	松井清彰 / Kiyoaki Matsui
第 5 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 6 著者氏名（和/英）	山口義和 / Yoshikazu Yamaguchi
第 6 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
発表年月日	2019-10-26
資料番号	SP2019-26,WIT2019-25
巻番号（vol）	vol.119
号番号（no）	SP-250,WIT-251
ページ範囲	pp.51-56(SP), pp.51-56(WIT),
ページ数	6
発行日	2019-10-19 (SP, WIT)