講演名 2020-12-02
音素認識問題におけるベイズ規準の下最適な予測に対する近似手法
山岡 大志(早大), 齋藤 翔太(早大), 松嶋 敏泰(早大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,音素認識の一手法について提案する. 隠れマルコフモデルを用いた音素認識の従来の研究は,予測に用いる隠れマルコフモデルをある基準で一つに定めている.また定めた隠れマルコフモデルに対して,学習データからパラメータ等を推定し,それらを用いて新規音声データに対応する音素を予測していた.本研究では,損失関数として0-1損失を仮定し,統計的決定理論に基づき,ベイズ基準のもとで最適な予測を定式化する.すなわち隠れマルコフモデルとそのパラメータを推定し,それらを用いて予測するのではなく,直接的に予測の誤り確率を最小にする予測を提案する.この予測は理論最適性を有するものの,その計算には次の二つの問題が含まれている:(i) 状態遷移系列の和計算の計算量が音声の長さに対して指数オーダーとなること,(ii) 隠れマルコフモデルのパラメータの事後分布による積分の解析的な計算が困難であること.これらの問題を解決するために,本研究では,問題(i)に対してはビタビアルゴリズム,問題(ii)に対しては変分ベイズ法を適用し,ベイズ準最適なアルゴリズムを提案する.このアルゴリズムは,複数の隠れマルコフモデルの近似事後分布による重み付き平均により予測を行う.人工データを用いた数値実験を行うことで,従来研究のようにモデルを一つに選択して予測する手法に比べて,提案手法の方が誤認識率が小さいことを確かめた.
抄録(英) In this paper, we propose a method of phoneme recognition. In the previous studies on phoneme recognition using the Hidden Markov Model, the Hidden Markov Model used for prediction is defined as one by a certain criteria. In addition, for the defined Hidden Markov Model, parameters were estimated from the training data, and the phonemes corresponding to the new speech data were predicted using paremters. In this peper, we assume 0-1 loss as the loss function, and formulate the optimum prediction based on Bayesian criterion. In other words, instead of selecting one Hidden Markov Model and estimating its parameters and making predictions using them, we propose a prediction that directly minimizes the probability of error in the prediction. Although this prediction is theoretically optimal, its calculation involves two problems: (i) The complexity of the sum calculation of the state transition series is on the exponential order with respect to the length of the voice. (ii) It is difficult to analytically calculate the integral by the posterior distribution of the parameters of the Hidden Markov Model. In order to solve these problems, in this paper, we apply the Viterbi algorithm for problem (i) and the Variational Bayesian method for problem (ii), and propose a Bayesian semi-optimal algorithm. This algorithm makes predictions by weighted averages of approximate posterior distributions of multiple Hidden Markov Models. By conducting numerical experiments using artificial data, it was confirmed that the proposed method has a smaller false recognition rate than the method of selecting and predicting one model as in the previous research.
キーワード(和) 音素認識 / 隠れマルコフモデル / ベイズ規準
キーワード(英) Phoneme recognition / Hidden Markov model / Bayes criteria
資料番号 IT2020-30
発行日 2020-11-24 (IT)

研究会情報
研究会 IT
開催期間 2020/12/1(から3日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 若手研究者のための講演会,一般
テーマ(英) Lectures for Young Researchers, General
委員長氏名(和) 和田山 正(名工大)
委員長氏名(英) Tadashi Wadayama(Nagoya Inst. of Tech.)
副委員長氏名(和) 小嶋 徹也(東京高専)
副委員長氏名(英) Tetsuya Kojima(Tokyo Kosen)
幹事氏名(和) 野崎 隆之(山口大) / 廣友 雅徳(佐賀大)
幹事氏名(英) Takayuki Nozaki(Yamaguchi Univ.) / Masanori Hirotomo(Saga Univ.)
幹事補佐氏名(和) 太田 隆博(専修大)
幹事補佐氏名(英) Takahiro Ohta(Senshu Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Information Theory
本文の言語 JPN
タイトル(和) 音素認識問題におけるベイズ規準の下最適な予測に対する近似手法
サブタイトル(和)
タイトル(英) Approximation Method for Bayes Optimal Prediction in Phoneme Recognition Problem
サブタイトル(和)
キーワード(1)(和/英) 音素認識 / Phoneme recognition
キーワード(2)(和/英) 隠れマルコフモデル / Hidden Markov model
キーワード(3)(和/英) ベイズ規準 / Bayes criteria
第 1 著者 氏名(和/英) 山岡 大志 / Taishi Yamaoka
第 1 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
第 2 著者 氏名(和/英) 齋藤 翔太 / Shota Saito
第 2 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
第 3 著者 氏名(和/英) 松嶋 敏泰 / Toshiyasu Matsushima
第 3 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
発表年月日 2020-12-02
資料番号 IT2020-30
巻番号(vol) vol.120
号番号(no) IT-268
ページ範囲 pp.32-37(IT),
ページ数 6
発行日 2020-11-24 (IT)