講演名 2009-10-30
手の動きを入力としたリアルタイム音声生成系における鼻音の合成とピッチ制御に関する検討(福祉と音声処理,一般)
國越 晶, 喬 宇, 峯松 信明, 広瀬 啓吉,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 発声器官の制御に障害を持つ構音障害者が会話をする場合、文字や記号の入力を介して音声を生成する機器を用いることが多い。しかし、リアルタイムに自由な発話をすることが難しく、障害者が会話の主導権を握れない等の問題が指摘されている。そこで本研究では、文字や記号を介さない音声生成として、障害者自身の構音器官以外の身体運動から直接音声を生成するシステムの構築を検討している。近年、与えられたパラレルデータに対して、統計的に空間写像を設計する手法が話者変換の分野で用いられている。この手法を応用し、本研究では、身体運動の特徴量空間から音声の特徴量空間への写像に基づく音声生成系を検討している。これまでに、手姿勢(ジェスチャー)を入力とした日本語五母音の連続音声生成において、本手法が有効であることを報告した。さらに自由な発話の実現を目指し、本稿では本システムにおける鼻子音の合成とピッチ制御に関して実験的検討を行った。本システムへの子音の導入方法としては、子音の開始時刻を前腕の姿勢角などで指定し、子音の波形と、ジェスチャーから得られる母音波形を接続する方式や、母音に対して用いた提案手法を子音の合成に拡張する方式などが考えられる。本稿では子音としてまず鼻音に注目し、この2通りの合成方法について実験的検討を行った。また磁気センサを導入し、前腕の姿勢角によるピッチ制御を実現したので報告する。
抄録(英) When individuals with speaking disabilities, dysarthrics, try to communicate using speech, they often have to use speech synthesizers which require them to type word symbols or sound symbols. This input method often makes realtime operations difficult and dysarthric users fail to control the flow of conversation. In this study, we are developing a new and novel speech synthesizer where not symbol inputs but hand motions are used to generate speech. In recent years, statistical voice conversion techniques have been proposed based on space mapping between given parallel data sequences. By applying these methods, a hand space and a vowel space is mapped and a converter from hand motions to vowel transitions is developed. It has been reported that the proposed method is effective enough to generate Japanese five vowels. In this paper, we discuss expansion of this system to consonant generation and pitch control. For the former, two methods are examined: waveform concatenation and space mapping for consonant sounds are discussed. For the latter, pitch control is realized using posture of the arm measured by a magnetic sensor.
キーワード(和) 構音障害 / 音声生成 / 手の運動 / メディア変換 / 母音・手姿勢配置
キーワード(英) Dysarthria / speech production / hand motions / media conversion / arrangement of gestures and vowels
資料番号 SP2009-56,WIT2009-62
発行日

研究会情報
研究会 WIT
開催期間 2009/10/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Well-being Information Technology(WIT)
本文の言語 JPN
タイトル(和) 手の動きを入力としたリアルタイム音声生成系における鼻音の合成とピッチ制御に関する検討(福祉と音声処理,一般)
サブタイトル(和)
タイトル(英) Nasal sound generation and pitch control for the real-time hand to speech system
サブタイトル(和)
キーワード(1)(和/英) 構音障害 / Dysarthria
キーワード(2)(和/英) 音声生成 / speech production
キーワード(3)(和/英) 手の運動 / hand motions
キーワード(4)(和/英) メディア変換 / media conversion
キーワード(5)(和/英) 母音・手姿勢配置 / arrangement of gestures and vowels
第 1 著者 氏名(和/英) 國越 晶 / A. KUNIKOSHI
第 1 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Eng., The Univ. of Tokyo
第 2 著者 氏名(和/英) 喬 宇 / Y. QIAO
第 2 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Grad. School of Info. Sci. and Tech., The Univ. of Tokyo
第 3 著者 氏名(和/英) 峯松 信明 / N. MINEMATSU
第 3 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Grad. School of Info. Sci. and Tech., The Univ. of Tokyo
第 4 著者 氏名(和/英) 広瀬 啓吉 / K. HIROSE
第 4 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Grad. School of Info. Sci. and Tech., The Univ. of Tokyo
発表年月日 2009-10-30
資料番号 SP2009-56,WIT2009-62
巻番号(vol) vol.109
号番号(no) 260
ページ範囲 pp.-
ページ数 6
発行日