講演抄録/キーワード |
講演名 |
2014-07-25 11:20
[招待講演]統計的機械学習問題としての音声研究 ○南角吉彦(名工大) SP2014-67 |
抄録 |
(和) |
本稿では,統計的機械学習の問題として音声研究を振り返り,特に音声認識と音声合成における共通点や相違点,今後の研究の方向性について述べる.近年,音声認識と音声合成はどちらも統計的な手法が主流となり,多くの共通した技術が使われる一方で,それぞれの技術が深化するにつれて,その違いも明確になってきた.その違いは,認識と合成の本質的な違いによるものであり,音声認識は識別モデル,音声合成は生成モデルとして研究が進められている.これを踏まえ,本稿では今後の方向性の一つとして,音声認識や音声合成を巨大な一つの統計モデルとして取り扱う統合モデルの枠組みについて述べる.現時点では識別モデルに基づく音声認識において,音声の階層構造を考慮しつつ統合的に扱う枠組みは未だ明確ではないが,システマティックにモデル構造を構築する際の生成モデルの有効性について考察する. |
(英) |
This paper discusses the similarities and differences between speech recognition and speech synthesis techniques from a view point of statistical machine leaning. Although recent speech recognition and synthesis are based on the statistical machine learning techniques, the directions of their research have become different in a decade. This is because speech recognition essentially corresponds to discriminative models and speech synthesis corresponds to generative models. Based on the fact, this paper also describes an optimization framework for constructing a speech recognition/synthesis system as an integrated single statistical model. Although the framework for the discriminative model based speech recognition has not yet been clarified, a possibility of a systematic approach using generative models to extract effective features and model structures is discussed. |
キーワード |
(和) |
音声研究 / 音声認識 / 音声合成 / 統計的機械学習 / / / / |
(英) |
speech research / speech recognition / speech synthesis / statistical machine learning / / / / |
文献情報 |
信学技報, vol. 114, no. 151, SP2014-67, pp. 25-30, 2014年7月. |
資料番号 |
SP2014-67 |
発行日 |
2014-07-17 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2014-67 |