講演抄録/キーワード |
講演名 |
2016-07-29 16:00
音声中の検索語検出における音響距離構築方式の検討 ○紺野良太(岩手県立大)・李 時旭(産総研)・田中和世(筑波大)・小嶋和徳・伊藤慶明(岩手県立大) SP2016-25 |
抄録 |
(和) |
音声中の検索語検出(STD: Spoken Term Detection)では,一般的に音声ドキュメントをサブワード単位で予め音声認識し,サブワード系列に記号化しておき,このサブワード系列とクエリのサブワード系列を照合し,検索する方式が用いられる.音声をクエリとするSQ-STD(Spoken Query STD)では,音声クエリを音声認識システムでサブワード系列化した上で,テキストクエリ同様,音声ドキュメントのサブワード系列と照合を行う.照合の際のサブワード間の局所距離はEdit distanceが代表的だが,我々はこれまで,GMM(Gaussian Mixture Model)分布間距離に基づく音響距離(GMM-BD)やDNN(Deep Neural Network)事後確率に基づくConfusion Matrix(DNN-CM)を提案し,その有効性を示してきた.一方,GMM事後確率に基づくConfusion Matrix(GMM-CM)やDNN分布間距離に基づく音響距離(DNN-BD)の構築方式も存在する.そこで本稿では,STDとSQ-STDにおいて,これら5つの音響距離を構築し,検索精度の最も高い音響距離を求める.評価実験の結果,状態間照合を行った場合,テキストクエリでは,Edit distanceで65.8%,GMM-BDで78.7%,GMM-CMで80.4%,DNN-BDで80.2%,DNN-CMで81.2%,音声クエリでは,Edit distanceで46.5%,GMM-BDで56.2%,GMM-CMで58.7%,DNN-BDで59.6%,DNN-CMで60.3%となり,STD,SQ-STD共にDNNの事後確率を用いて構築したConfusion Matrix(DNN-CM)が有効であることを確認した. |
(英) |
This paper proposes acoustic distance construction methods for spoken term detection. |
キーワード |
(和) |
音声中の検索語検出 / STD / 音響距離 / / / / / |
(英) |
Spoken Term Detection / STD / acoustic distance / / / / / |
文献情報 |
信学技報, vol. 116, no. 165, SP2016-25, pp. 27-32, 2016年7月. |
資料番号 |
SP2016-25 |
発行日 |
2016-07-21 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2016-25 |