講演名 2018-06-28
音声と口唇形状を用いた声質変換による舌亜全摘出者の音韻明瞭度改善の検討
荻野 聖也(岡山大), 村上 博紀(岡山大), 原 直(岡山大), 阿部 匡伸(岡山大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本報告では舌亜全摘出者が発声する音声の音韻明瞭度改善を目的として,音響情報と口唇情報を用いたマルチモーダル声質変換方式を提案する.舌亜全摘出者は癌治療などにより手術で舌を半分以上摘出した人であり,舌亜全摘出者が発声した音声は健常者と比べると音韻明瞭度が低い.そこで,DNN(Deep Neural Network)に基づく声質変換により舌亜全摘出者の音声を健常者の音声に変換することで音韻明瞭度の改善をおこなう.音響情報のみを用いたベースライン方式では,舌亜全摘出者の音韻明瞭性の改善は十分ではない.そこで,提案方式として口唇情報を加えたマルチモーダル声質変換で音韻明瞭性の更なる改善を目指す.口唇情報はMicrosoft Kinect v2 の顔検出機能により得られる,特徴点の3 次元座標を用いる.評価実験では客観評価実験により声質変換精度を,主観評価実験により変換音声の音韻明瞭度を評価した.結果からベースライン方式に比べて,変換精度の向上は見られなかったものの,提案方式では音韻明瞭度が改善された.
抄録(英) In this paper, we propose the multimodal voice conversion based on Deep Neural Network using audio and lip movement information for improving speech intelligibility uttered by glossectomy patients. The glossectomy patients remove more than half of their tongue, sound uttered by them contain less intelligibility compared to healthy persons. In beseline using audio information, intelligibility isn't imporved enough. Hence, we improve more by the multimodal voice conversion. The lip movement information is face feature points obtained by Microsoft Kinect v2. From the result of evaluation, proposed approach cannot improve precision of voice conversion, but can improve intelligibility compared to baseline.
キーワード(和) マルチモーダル声質変換 / Deep Neural Network / 舌亜全摘出者 / 音韻明瞭度 / Microsoft Kinect v2
キーワード(英) multimodal voice conversion / Deep Neural Network / glossectomy patients / speech intelligibility / Microsoft Kinect v2
資料番号 PRMU2018-23,SP2018-3
発行日 2018-06-21 (PRMU, SP)

研究会情報
研究会 PRMU / SP
開催期間 2018/6/28(から2日開催)
開催地(和) 信州大学
開催地(英)
テーマ(和) マルチモーダル/クロスモーダルな認識、生成
テーマ(英)
委員長氏名(和) 佐藤 真一(NII) / 山下 洋一(立命館大)
委員長氏名(英) Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 井尻 善久(オムロン) / 玉木 徹(広島大) / 李 晃伸(名工大)
副委員長氏名(英) Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 石井 雅人(NEC) / 菅野 裕介(阪大) / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 入江 豪(NTT) / 牛久 祥孝(東大) / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 音声と口唇形状を用いた声質変換による舌亜全摘出者の音韻明瞭度改善の検討
サブタイトル(和)
タイトル(英) Study of improving speech intelligibility for glossectomy patients via voice conversion with sound and lip movement.
サブタイトル(和)
キーワード(1)(和/英) マルチモーダル声質変換 / multimodal voice conversion
キーワード(2)(和/英) Deep Neural Network / Deep Neural Network
キーワード(3)(和/英) 舌亜全摘出者 / glossectomy patients
キーワード(4)(和/英) 音韻明瞭度 / speech intelligibility
キーワード(5)(和/英) Microsoft Kinect v2 / Microsoft Kinect v2
第 1 著者 氏名(和/英) 荻野 聖也 / Seiya Ogino
第 1 著者 所属(和/英) 岡山大学(略称:岡山大)
Okayama University(略称:Okayama Univ.)
第 2 著者 氏名(和/英) 村上 博紀 / Hiroki Murakami
第 2 著者 所属(和/英) 岡山大学(略称:岡山大)
Okayama University(略称:Okayama Univ.)
第 3 著者 氏名(和/英) 原 直 / Sunao Hara
第 3 著者 所属(和/英) 岡山大学(略称:岡山大)
Okayama University(略称:Okayama Univ.)
第 4 著者 氏名(和/英) 阿部 匡伸 / Masanobu Abe
第 4 著者 所属(和/英) 岡山大学(略称:岡山大)
Okayama University(略称:Okayama Univ.)
発表年月日 2018-06-28
資料番号 PRMU2018-23,SP2018-3
巻番号(vol) vol.118
号番号(no) PRMU-111,SP-112
ページ範囲 pp.7-12(PRMU), pp.7-12(SP),
ページ数 6
発行日 2018-06-21 (PRMU, SP)