講演名 | 2020-06-12 CycleGANに基づく構音障害音声の明瞭性改善 今井 柊平(東北大), 能勢 隆(東北大), 金垣 葵(東北大), 渡辺 聡(HTS), 伊藤 彰則(東北大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本稿では非ペア声質変換のタスクで有効性が示されているCycleGAN-VC2を使用して構音障害音声から複数話者の健常音声への変換を学習することで明瞭性の改善を検討する.以前から音声合成技術や声質変換技術を用いて構音障害者のコミュニケーションを支援する試みが行われてきた.特に近年では深層学習による手法が様々なタスクで優れた結果を残していることから,これを用いた手法が検討されてきている.しかしながら高品質な手法は構音障害音声の大規模コーパスを構築する必要があり,これは構音障害者にとって負担が大きく困難である.一方,健常音声のコーパスとしては既存のものが様々存在するため,大量に学習に使用することが可能である.そこで本研究では,学習に使用する健常音声として複数話者を使用することで,比較的少量の構音障害音声にもかかわらず明瞭性を改善する手法を検討する.健常音声として単一話者と複数話者を使用し,複数話者の場合は話者数の違いにより複数のデータセットを作成した.これらの各条件でCycleGAN-VC2の学習を行い,得られた音声を主観・客観的に評価することで性能を比較した. |
抄録(英) | Several voice conversion systems have been developed that converts the dysarthric speech into healthy speech.The conventional methods, however, require a large amount of dysarthric speech for realizing a high-quality voice output.Preparing such a database is burdensome for those people with dysarthria.In this paper, we investigate a method to improve intelligibility by learning the conversion from dysarthric speech to healthy speech with multiple speakers using CycleGAN-VC2, an efficient and high-quality VC algorithm in the task of unpaired voice conversion.We trained VC models with CycleGAN-VC2 using healthy speech with multiple speaker and relatively small amount of dysarthric speech, and compared the performance of converted speech by subjective and objective evaluation. |
キーワード(和) | 構音障害 / 明瞭性 / 声質変換 / CycleGAN |
キーワード(英) | Dysarthria / Pronounce clarity / Voice conversion / CycleGAN |
資料番号 | WIT2020-1 |
発行日 | 2020-06-05 (WIT) |
研究会情報 | |
研究会 | WIT |
---|---|
開催期間 | 2020/6/12(から1日開催) |
開催地(和) | オンライン開催(大阪産業大学より変更) |
開催地(英) | Online meeting |
テーマ(和) | 福祉情報工学、一般 |
テーマ(英) | Well-being Information Technology, etc. |
委員長氏名(和) | 若月 大輔(筑波技大) |
委員長氏名(英) | Daisuke Wakatsuki(Tsukuba Univ. of Tech.) |
副委員長氏名(和) | 酒向 慎司(名工大) |
副委員長氏名(英) | Shinji Sakou(Nagoya Inst. of Tech.) |
幹事氏名(和) | 半田 隆志(埼玉県産業技術総合センター) / 塩野目 剛亮(帝京大) / 雨宮 智浩(東大) |
幹事氏名(英) | Takashi Handa(Saitama Industrial Tech. Center) / Takeaki Shionome(Teikyo Univ.) / Tomohiro Amemiya(Univ. of Tokyo) |
幹事補佐氏名(和) | 宮城 愛美(筑波技術大) / 細野 美奈子(産総研) / 菅野 亜紀(名大) |
幹事補佐氏名(英) | Manabi Miyagi(Tsukuba Univ. of Tech.) / Minako Hosono(AIST) / Aki Sugano(Nagoya Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Well-being Information Technology |
---|---|
本文の言語 | JPN |
タイトル(和) | CycleGANに基づく構音障害音声の明瞭性改善 |
サブタイトル(和) | |
タイトル(英) | Improving the pronounce clarity of dysarthric speech using CycleGAN |
サブタイトル(和) | |
キーワード(1)(和/英) | 構音障害 / Dysarthria |
キーワード(2)(和/英) | 明瞭性 / Pronounce clarity |
キーワード(3)(和/英) | 声質変換 / Voice conversion |
キーワード(4)(和/英) | CycleGAN / CycleGAN |
第 1 著者 氏名(和/英) | 今井 柊平 / Shuhei Imai |
第 1 著者 所属(和/英) | 東北大学(略称:東北大) Tohoku University(略称:Tohoku Univ.) |
第 2 著者 氏名(和/英) | 能勢 隆 / Takashi Nose |
第 2 著者 所属(和/英) | 東北大学(略称:東北大) Tohoku University(略称:Tohoku Univ.) |
第 3 著者 氏名(和/英) | 金垣 葵 / Aoi Kanagaki |
第 3 著者 所属(和/英) | 東北大学(略称:東北大) Tohoku University(略称:Tohoku Univ.) |
第 4 著者 氏名(和/英) | 渡辺 聡 / Satoshi Watanabe |
第 4 著者 所属(和/英) | ヒューマンテクノシステム(略称:HTS) Human Techno System(略称:HTS) |
第 5 著者 氏名(和/英) | 伊藤 彰則 / Akinori Ito |
第 5 著者 所属(和/英) | 東北大学(略称:東北大) Tohoku University(略称:Tohoku Univ.) |
発表年月日 | 2020-06-12 |
資料番号 | WIT2020-1 |
巻番号(vol) | vol.120 |
号番号(no) | WIT-63 |
ページ範囲 | pp.1-6(WIT), |
ページ数 | 6 |
発行日 | 2020-06-05 (WIT) |