講演抄録/キーワード |
講演名 |
2015-07-16 14:00
音声中の検索語検出におけるフレームレベル状態系列間照合方式 ○紺野良太・小嶋和徳(岩手県立大)・李 時旭(産総研)・田中和世(筑波大)・伊藤慶明(岩手県立大) SP2015-37 |
抄録 |
(和) |
近年,音声データや動画データから特定のシーンを検索する,音声中の検索語検出(STD: Spoken-Term Detection)において,音声をクエリとして検索を行うSQ-STD(Spoken Query STD)の研究が活発に行われている.SQ-STDの一般的な実現方法としては,入力音声を音声認識システムでテキスト化・音素列化を行い,その音素列をクエリとして,テキストクエリ同様のSTDシステムで検索が行われる.本稿では,DNN(Deep Neural Network)を用いて各フレームの事後確率を算出し,最も事後確率の高い状態をそのフレームの状態とすることで,音声クエリ・音声ドキュメントの状態系列を作成し,状態間距離を用いてフレームレベルでの状態系列間照合を行うことで検索精度の向上を図った.NTCIR-10で用いられたテストセット(Formal run 100クエリ)を話者10人で録音したものを用いて提案方式の評価を行った.音声クエリを音節認識によりテキスト化し,テキストクエリ同様のSTDシステムを用いて検索を行う従来方式(サブワード間照合及び状態間照合)と比べ,DNNの事後確率を用いて構築した音響距離を用いた場合,サブワード間照合が59.62%,状態間照合が61.14%,提案方式が65.27%のMAPとなり,最も高い検索精度が得られ,提案方式の有効性を確認できた. |
(英) |
This paper proposes a spoken term detection method matching at a frame level. |
キーワード |
(和) |
音声中の検索語検出 / STD / DNN / 音声クエリ / / / / |
(英) |
Spoken-Term Detection / STD / DNN / Spoken Query / / / / |
文献情報 |
信学技報, vol. 115, no. 146, SP2015-37, pp. 7-12, 2015年7月. |
資料番号 |
SP2015-37 |
発行日 |
2015-07-09 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2015-37 |