講演抄録/キーワード |
講演名 |
2008-11-20 17:15
空間写像に基づく手の動きを入力とした音声生成系の構築 ○國越 晶・喬 宇・鈴木雅之・峯松信明・広瀬啓吉(東大) SP2008-78 |
抄録 |
(和) |
発声器官の制御に障害を持つ構音障害者が会話をする場合、文字や記号の入力を介して音声を生成する機器を用いることが多い。しかし、リアルタイムに自由な発話をすることが難しく、障害者が会話の主導権を握れない等の問題が指摘されている。そこで本研究では、文字や記号を介さない音声生成として、障害者自身の構音器官以外の身体運動から直接音声を生成するシステムの構築を検討する。近年、統計的に空間写像を設計する手法が話者変換の分野で用いられている。この手法を応用し、本研究では日本語五母音を対象として、身体運動の特徴量空間から音声の特徴量空間への写像に基づく音声生成系を構築する。まず予備的検討として、二母音間遷移中に別の母音が混入しないように母音とジェスチャーとを対応させ、連結母音音声の生成系を構築し、手の運動から音声生成が可能であることを確認した。次に、母音とジェスチャーとのより良い対応を求めるために、「ジェスチャー空間におけるジェスチャー群の配置」と「母音空間における母音群配置」の等価性を、より保証できる空間写像を設計した。実験の結果、両メディア間の等価性を考慮した空間写像によって、より明瞭な音声を生成することが可能となった。 |
(英) |
When individuals with speaking disabilities, dysarthrics, want to communicate using speech, they often use speech synthesizers which require them to type word symbols or sound symbols. This input method often makes realtime operations difficult and dysarthric users fail to control the flow of conversation. In this paper, a new and novel speech synthesizer is proposed where not symbol inputs but hand motions are used to generate speech. In recent years, statistical voice conversion techniques have been proposed based on space mapping. By applying these methods, a hand motion space and a vowel space is mapped and a convertor from hand motions to vowel transitions is developed. In this paper, as a preliminary discussion, the correspondence between Japanese five vowels and five hand gestures is fixed so that a transition between any pair of vowels will not generate a third vowel. Using this correspondence, we develop a converter, which will convince us that the conversion is effective enough. After this preliminary discussion, we make attempts to find a more optimal correspondence between hand gestures and vowels. By considering the equivalence between geometrical features of the gestural arrangement in the gesture space and those of the vowel arrangement in the vowel space, we show that the quasi optimal correspondence can be obtained. |
キーワード |
(和) |
構音障害 / 音声生成 / 手の運動 / メディア変換 / 母音・手姿勢配置 / 構造的表象 / / |
(英) |
Dysarthria / speech production / hand motions / media conversion / arrangement of gestures and vowels / structural representation / / |
文献情報 |
信学技報, vol. 108, no. 312, SP2008-78, pp. 45-50, 2008年11月. |
資料番号 |
SP2008-78 |
発行日 |
2008-11-13 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2008-78 |