講演名 2013-02-02
コミュニケーション支援のための眼球動作入力音声合成インタフェースの研究(福祉情報工学一般,地域コミュニティと福祉)
房 福明, 篠崎 隆宏, 堀内 靖雄, 黒岩 眞吾, 古井 貞煕, 武者 利光,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 身体的なハンディキャップにより意思疎通が難しい患者,特に筋萎縮性側索硬化症(ALS)の患者に対し代替となる効率的なコミュニケーション手段を提供することを目的として,眼電位を入力とした音声合成インタフェースを提案し研究を行っている.システムは目の周囲に配置した生体電極から眼電位信号を取り込み,音声認識技術を応用した認識器を用いて眼球動作を認識する.そしてその結果をもとに,実時間で音声合成を行う.これまでのシステムでは認識器においてコンテキスト非依存隠れマルコフモデル(HMM)や一部の眼動素のみ直前のコンテキストに依存化させたバイ眼動素モデルを用いていたが,認識性能の点で不十分であった.そこで本研究では,直前および直後のコンテキストに依存化させた状態共有トライ眼動素モデルの利用を検討する.さらに,眼動素の並びをモデル化したN-gramモデルの導入を行う.従来のコンテキスト非依存HMMのみを用いた場合の仮名認識精度が84 3%,バイ眼動素モデルを用いた場合が89 1%であったのに対し,トライ眼動素モデルを用いた場合は96 2%と認識精度が大きく向上した さらに, N-gramモデルとして仮名3-gramモデルを使用することで, 97 3%の高い認識精度が得られた.
抄録(英) In order to provide an efficient means of communication for those who cannot move muscles of their whole body except eyes due to amyotrophic lateral sclerosis (ALS), we are studying a speech synthesis interface based on electrooculogram (EOG) input The system consists of an EOG input module, an eye motion recognizer, and a speech synthesizer In this paper, we improve the EOG input based eye motion recognizer applying speech recognition techniques In our previous system, a hidden Markov model (HMM) based bi eye-motion model was used However, it was not enough to effectively model the context effects of eye motions In this study, we investigate using a tied-state tri eye-motion model Moreover, an N-gram model is integrated to the recognition system In the experiment, it is shown that 96 2% of character recognition accuracy is obtained by using the tn eye-motion model whereas it is 84 3% and 89 1% for mono and bi eye-motion models, respectively By using a character 3-gram model in combination with the tri eye motion-model, the highest character accuracy of 97 3% has been obtained
キーワード(和) 眼電位 / 隠れマルコフモデル / N-gramモデル / 音声合成 / 情報保障
キーワード(英) Electrooculogram / Hidden Markov model / N-gram / Speech synthesis / Communication aids
資料番号 WIT2012-38
発行日

研究会情報
研究会 WIT
開催期間 2013/1/26(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Well-being Information Technology(WIT)
本文の言語 JPN
タイトル(和) コミュニケーション支援のための眼球動作入力音声合成インタフェースの研究(福祉情報工学一般,地域コミュニティと福祉)
サブタイトル(和)
タイトル(英) Eye Motion Input Based Speech Synthesis Interface for Communication Aids
サブタイトル(和)
キーワード(1)(和/英) 眼電位 / Electrooculogram
キーワード(2)(和/英) 隠れマルコフモデル / Hidden Markov model
キーワード(3)(和/英) N-gramモデル / N-gram
キーワード(4)(和/英) 音声合成 / Speech synthesis
キーワード(5)(和/英) 情報保障 / Communication aids
第 1 著者 氏名(和/英) 房 福明 / Fuming FANG
第 1 著者 所属(和/英) 千葉大学
Chiba University
第 2 著者 氏名(和/英) 篠崎 隆宏 / Takahiro SHINOZAKI
第 2 著者 所属(和/英) 千葉大学
Chiba University
第 3 著者 氏名(和/英) 堀内 靖雄 / Yasuo HORIUCHI
第 3 著者 所属(和/英) 千葉大学
Chiba University
第 4 著者 氏名(和/英) 黒岩 眞吾 / Shingo KUROIWA
第 4 著者 所属(和/英) 千葉大学
Chiba University
第 5 著者 氏名(和/英) 古井 貞煕 / Sadaoki FURUI
第 5 著者 所属(和/英) 東京工業大学
Tokyo Institute of Technology
第 6 著者 氏名(和/英) 武者 利光 / Toshimitsu MUSHA
第 6 著者 所属(和/英) 脳機能研究所
Brain Functions Laboratory
発表年月日 2013-02-02
資料番号 WIT2012-38
巻番号(vol) vol.112
号番号(no) 426
ページ範囲 pp.-
ページ数 6
発行日