講演抄録/キーワード |
講演名 |
2017-07-20 13:40
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出 ○林 知樹(名大)・渡部晋治(MERL)・戸田智基(名大)・堀 貴明・JonathanLe Roux(MERL)・武田一哉(名大) EA2017-2 |
抄録 |
(和) |
本稿では,音響イベントの継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる新たな多重音響イベント検出手法を提案する.本提案モデルは,入力系列の情報を最大限に活用してフレーム単位の識別を行う双方向型長・短期記憶ユニットネットワーク(BLSTM)と,出力系列の明示的な継続長制御を可能とする隠れセミマルコフモデル(HSMM)から構成される.本手法は音響イベントの重要な性質の一つである継続長を正確にモデル化することを可能とし,系列単位の処理を実現する.さらに,雑音環境下での挿入誤りを抑制するため,BLSTMに基づくSADネットワークを利用したバイナリマスキングによる事後処理を併用する.本手法の有効性を確認するため,合成音多重音響イベント検出タスクであるDCASE2016 task~2のデータセットを用いて非負値行列因子分解(NMF)やマルチラベルクラス分類形式で学習されるBLSTMなどの従来手法との比較実験を行う.実験結果から,本手法は従来手法を大きく上回り,さらにはDCASE2016 task2 Challengeに提出されたベストの結果を上回るstate-of-the-artの性能を達成することを示す. |
(英) |
This paper presents a new BLSTM-HSMM hybrid approach for polyphonic Sound Event Detection (SED). It builds upon a state-of-the-art sound event detection method which performs frame-by-frame detection using a bidirectional long short-term memory recurrent neural network (BLSTM), and incorporates a duration modeling technique based on a hidden semi-Markov model (HSMM). The proposed method makes it possible to model the duration of each sound event precisely and to perform sequence-by-sequence detection. Furthermore, to effectively reduce sound event insertion errors, we also introduce a binary-mask-based post-processing based on a sound activity detection (SAD) network. Using the DCASE2016 task2 Challenge dataset, we demonstrate that our proposed method outperformed conventional methods, such as non-negative matrix factorization (NMF) and standard BLSTM, also outperforming the best results reported in the DCASE2016 task 2 Challenge. |
キーワード |
(和) |
音響イベント検出 / BLSTM / HSMM / ハイブリッドモデル / 継続長制御 / / / |
(英) |
sound event detection / BLSTM / HSMM / hybrid model / duration control / / / |
文献情報 |
信学技報, vol. 117, no. 138, EA2017-2, pp. 9-14, 2017年7月. |
資料番号 |
EA2017-2 |
発行日 |
2017-07-13 (EA) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2017-2 |