講演名 2018-01-20
[ポスター講演]深層学習による調音-音声変換に関する検討
田口 史朗(九大), 鏑木 時彦(九大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,磁気センサ(EMA)で観測された調音器官の運動パタンを音声の特徴量に変換する方法を検討した.調音パラメータは声道の音響特性と直接的な関係があることから,従来研究では調音器官の運動パタンから音声のスペクトル包絡を表す特徴量への変換が行われてきた.しかしながら,調音パラメータや声道の音響特性は音声の音韻性を担っており,さらにピッチパターンや有声無声などの音源情報は音韻情報と無関係ではないことを考えると,調音パラメータと音源情報の間にも何らかの関係性が存在する可能性が考えられる.本研究ではこの関係を利用して,スペクトル包絡だけでなく音源に関する特徴量を推定することで,調音器官の運動パタンから直接音声の合成を行い,推定した音声パラメータの客観評価を行った.
抄録(英) In this study, we examined a method to convert the movement pattern of articulatory organs observed by a magnetic sensor (EMA) into feature parameters of speech. In conventional studies, articulation parameters representing movement pattern of articulatory organs were usually converted to feature parameters representing the spectral envelope of the speech, because articulation parameters are directly related to the acoustic characteristics of the vocal tract. However, articulatory parameters and the acoustic characteristics of the vocal tract are responsible for the phonological properties of speech and phonemic information is related to glottal sound source information such as the pitch pattern and the voiced-unvoiced distinction. These considerations suggest that there exists a certain kind of relationship between articulatory parameters and the glottal sound source information. In this study, we relied on this relationship and estimated not only the spectral envelope but also features related to the glottal sound source, thereby synthesizing speech directly from the movement orbit of articulatory organs. We also objectively evaluated the estimation accuracy of speech parameters.
キーワード(和) 調音運動 / 声道スペクトル / Deep Learning / 調音-音響マッピング
キーワード(英) articulatory movement / vocal tract spectrum / Deep Learning / articulatory-to-acoustic mapping
資料番号 SP2017-70
発行日 2018-01-13 (SP)

研究会情報
研究会 SP / ASJ-H
開催期間 2018/1/20(から2日開催)
開催地(和) 東京大学
開催地(英) The University of Tokyo
テーマ(和) 音声合成,音声コミュニケーション,聴覚,音声一般
テーマ(英)
委員長氏名(和) 山下 洋一(立命館大) / 平原 達也(富山県立大)
委員長氏名(英) Yoichi Yamashita(Ritsumeikan Univ.) / 平原 達也(富山県立大)
副委員長氏名(和) 森 大毅(宇都宮大) / 中川 誠司(千葉大)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / 中川 誠司(千葉大)
幹事氏名(和) 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大)
幹事氏名(英) Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大)
幹事補佐氏名(和) 橋本 佳(名工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Auditory Research Meeting
本文の言語 JPN
タイトル(和) [ポスター講演]深層学習による調音-音声変換に関する検討
サブタイトル(和)
タイトル(英) [Poster Presentation] A study on the articulatory-to-speech conversion by using deep learning
サブタイトル(和)
キーワード(1)(和/英) 調音運動 / articulatory movement
キーワード(2)(和/英) 声道スペクトル / vocal tract spectrum
キーワード(3)(和/英) Deep Learning / Deep Learning
キーワード(4)(和/英) 調音-音響マッピング / articulatory-to-acoustic mapping
第 1 著者 氏名(和/英) 田口 史朗 / Fumiaki Taguchi
第 1 著者 所属(和/英) 九州大学(略称:九大)
Kyushu University(略称:Kyushu Univ.)
第 2 著者 氏名(和/英) 鏑木 時彦 / Tokihiko Kaburagi
第 2 著者 所属(和/英) 九州大学(略称:九大)
Kyushu University(略称:Kyushu Univ.)
発表年月日 2018-01-20
資料番号 SP2017-70
巻番号(vol) vol.117
号番号(no) SP-393
ページ範囲 pp.27-30(SP),
ページ数 4
発行日 2018-01-13 (SP)