6万語彙実時間連続音声認識のための40nm,144mW音声認識専用プロセッサの開発(高速デジタルLSI回路技術,デザインガイア2011-VLSI設計の新しい大地-)

菅原 隆伸; 何 光霽; 藤永 剛史; 宮本 優貴; 野口 紘希; 和泉 慎太郎; 川口 博; 吉本 雅彦

講演名	2011-11-30 6万語彙実時間連続音声認識のための40nm,144mW音声認識専用プロセッサの開発(高速デジタルLSI回路技術,デザインガイア2011-VLSI設計の新しい大地-) 菅原隆伸, 何光霽, 藤永剛史, 宮本優貴, 野口紘希, 和泉慎太郎, 川口博, 吉本雅彦,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究では,6万語彙の実時間連続音声認識の実現を目指すために新たなアーキテクチャを設計した.提案アーキテクチャでは,音声認識に特化したキャッシュ,言語モデルの粗密探索,閾値カットの導入,GMM演算とViterbi演算の2ステージパイプラインの導入,GMM演算の50先読み・高並列化を行った.その結果,必要メモリ帯域を97.94%削減し,70.86MB/sの低メモリ帯域を達成することが出来た.また,必要動作周波数を78%削減し126.5MHzで6万語彙実時間音声認識を行うことが出来た.尚,今回の試作では,40nmCMOSプロセスで試作を行い,ロジック部分が1.9Mトランジスタ,内部メモリが7.8Mbitとなっている.この試作チップを測定した結果,126.5MHz,1.1Vの条件下で144mWもの低消費電力で動作することが分かった.
抄録(英)	We have developed a low power VLSI chip for 60k-word real-time continuous speech recognition based on HMM(Hidden Markov Model). Our implementation includes a cache architecture using the locality of speech recognition, beam pruning using dynamic threshold, two-stage language model searching highly parallel Gaussian Mixture Model (GMM) computation based on mixture level, Variable 50 frames look-ahead scheme and elastic pipeline operation between Viterbi transition and GMM processing. Results show that our implementation achieves 97.94% bandwidth reduction (70.86MB/s) and 78% required frequency reduction (126.5MHz) for 60k-word real-time continuous speech recognition. The test chip has been fabricated in 40nm CMOS technology and occupies 2.2mm X 2.5mm containing 1.9M transistors for logic and 7.8 Mbit on-chip memory. Measured data show 144mW power consumption at 126.5MHz and 1.1V.
キーワード(和)	40nm VLSI / 隠れマルコフモデル(HMM) / 大語彙連続音声認識システム(LVCSR)
キーワード(英)	40nm VLSI / Hidden Markov Model (HMM) / large vocabulary continuous speech recognition (LVCSR)
資料番号	CPM2011-164,ICD2011-96
発行日

研究会情報
研究会	CPM
開催期間	2011/11/21(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Component Parts and Materials (CPM)
本文の言語	JPN
タイトル（和）	6万語彙実時間連続音声認識のための40nm,144mW音声認識専用プロセッサの開発(高速デジタルLSI回路技術,デザインガイア2011-VLSI設計の新しい大地-)
サブタイトル（和）
タイトル（英）	A 40nm 144mW VLSI Processor for Realtime 60k Word Continuous Speech Recognition
サブタイトル（和）
キーワード(1)（和/英）	40nm VLSI / 40nm VLSI
キーワード(2)（和/英）	隠れマルコフモデル(HMM) / Hidden Markov Model (HMM)
キーワード(3)（和/英）	大語彙連続音声認識システム(LVCSR) / large vocabulary continuous speech recognition (LVCSR)
第 1 著者氏名（和/英）	菅原隆伸 / Takanobu SUGAHARA
第 1 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 2 著者氏名（和/英）	何光霽 / Guangji HE
第 2 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 3 著者氏名（和/英）	藤永剛史 / Tsuyoshi FUJINAGA
第 3 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 4 著者氏名（和/英）	宮本優貴 / Yuki MIYAMOTO
第 4 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 5 著者氏名（和/英）	野口紘希 / Hiroki NOGUCHI
第 5 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 6 著者氏名（和/英）	和泉慎太郎 / Shintaro IZUMI
第 6 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 7 著者氏名（和/英）	川口博 / Hiroshi KAWAGUCHi
第 7 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
第 8 著者氏名（和/英）	吉本雅彦 / Masahiko YOSHIMOTO
第 8 著者所属（和/英）	神戸大学大学院システム情報学研究科 Graduate School of System Informatics, Kobe University
発表年月日	2011-11-30
資料番号	CPM2011-164,ICD2011-96
巻番号（vol）	vol.111
号番号（no）	326
ページ範囲	pp.-
ページ数	6
発行日