講演抄録/キーワード |
講演名 |
2020-06-12 13:30
CycleGANに基づく構音障害音声の明瞭性改善 ○今井柊平・能勢 隆・金垣 葵(東北大)・渡辺 聡(ヒューマンテクノシステム)・伊藤彰則(東北大) WIT2020-1 |
抄録 |
(和) |
本稿では非ペア声質変換のタスクで有効性が示されているCycleGAN-VC2を使用して構音障害音声から複数話者の健常音声への変換を学習することで明瞭性の改善を検討する.以前から音声合成技術や声質変換技術を用いて構音障害者のコミュニケーションを支援する試みが行われてきた.特に近年では深層学習による手法が様々なタスクで優れた結果を残していることから,これを用いた手法が検討されてきている.しかしながら高品質な手法は構音障害音声の大規模コーパスを構築する必要があり,これは構音障害者にとって負担が大きく困難である.一方,健常音声のコーパスとしては既存のものが様々存在するため,大量に学習に使用することが可能である.そこで本研究では,学習に使用する健常音声として複数話者を使用することで,比較的少量の構音障害音声にもかかわらず明瞭性を改善する手法を検討する.健常音声として単一話者と複数話者を使用し,複数話者の場合は話者数の違いにより複数のデータセットを作成した.これらの各条件でCycleGAN-VC2の学習を行い,得られた音声を主観・客観的に評価することで性能を比較した. |
(英) |
Several voice conversion systems have been developed that converts the dysarthric speech into healthy speech.The conventional methods, however, require a large amount of dysarthric speech for realizing a high-quality voice output.Preparing such a database is burdensome for those people with dysarthria.In this paper, we investigate a method to improve intelligibility by learning the conversion from dysarthric speech to healthy speech with multiple speakers using CycleGAN-VC2, an efficient and high-quality VC algorithm in the task of unpaired voice conversion.We trained VC models with CycleGAN-VC2 using healthy speech with multiple speaker and relatively small amount of dysarthric speech, and compared the performance of converted speech by subjective and objective evaluation. |
キーワード |
(和) |
構音障害 / 明瞭性 / 声質変換 / CycleGAN / / / / |
(英) |
Dysarthria / Pronounce clarity / Voice conversion / CycleGAN / / / / |
文献情報 |
信学技報, vol. 120, no. 63, WIT2020-1, pp. 1-6, 2020年6月. |
資料番号 |
WIT2020-1 |
発行日 |
2020-06-05 (WIT) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
WIT2020-1 |