お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2018-06-28 15:10
深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換
田村哲嗣堀尾健斗遠藤 肇速水 悟岐阜大)・戸田智基名大PRMU2018-24 SP2018-4
抄録 (和) 本論文では,雑音下における声質変換の音質向上を目標に,音声と口唇画像を用いるマルチモーダルな統計的声質変換の改善を行った.
具体的には,深層学習によるボトルネック特徴量の枠組みを用い,画像特徴量を改良した.
さらに,深層正準相関分析を用い,音響特徴量・画像特徴量のさらなる改善を行うとともに,音声と画像のクロスモーダルな変換手法を構築した.
雑音下での実験の結果,客観評価,主観評価ともに,提案手法は,音声のみ声質変換,画像のみ声質変換,従来のマルチモーダル声質変換と比べ,十分な音質改善に成功した. 
(英) In this paper, we aim at improving the speech quality in voice conversion and propose a novel multi-modal voice conversion approach using speech waveforms and lip images.
We employ deep bottleneck features to improve visual features in audio-visual voice conversion.
In addition, we also apply deep canonical correlation analysis to obtain much better audio and visual representations, as well as to build a new cross-modal framework.
We conducted subjective and objective evaluations in noisy environments to clarify usefulness of our proposed method, comparing to audio-only, visual-only and conventional audio-visual voice conversion schemes.
We then found our method can significantly improve the quality even in heavily noisy conditions.
キーワード (和) 声質変換 / マルチモーダル / オーディオビジュアル / クロスモーダル / 深層学習 / ボトルネック特徴量 / 正準相関分析 /  
(英) Voice conversion / multi-modal / audio-visual / cross-modal / deep learning / bottleneck feature / canonical component analysis /  
文献情報 信学技報, vol. 118, no. 112, SP2018-4, pp. 13-18, 2018年6月.
資料番号 SP2018-4 
発行日 2018-06-21 (PRMU, SP) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード PRMU2018-24 SP2018-4

研究会情報
研究会 PRMU SP  
開催期間 2018-06-28 - 2018-06-29 
開催地(和) 信州大学 
開催地(英)  
テーマ(和) マルチモーダル/クロスモーダルな認識、生成 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2018-06-PRMU-SP 
本文の言語 日本語 
タイトル(和) 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換 
サブタイトル(和)  
タイトル(英) Multimodal voice conversion using deep bottleneck features and deep canonical correlation analysis 
サブタイトル(英)  
キーワード(1)(和/英) 声質変換 / Voice conversion  
キーワード(2)(和/英) マルチモーダル / multi-modal  
キーワード(3)(和/英) オーディオビジュアル / audio-visual  
キーワード(4)(和/英) クロスモーダル / cross-modal  
キーワード(5)(和/英) 深層学習 / deep learning  
キーワード(6)(和/英) ボトルネック特徴量 / bottleneck feature  
キーワード(7)(和/英) 正準相関分析 / canonical component analysis  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 田村 哲嗣 / Satoshi Tamura / タムラ サトシ
第1著者 所属(和/英) 岐阜大学 (略称: 岐阜大)
Gifu University (略称: Gifu Univ.)
第2著者 氏名(和/英/ヨミ) 堀尾 健斗 / Kento Horio / ホリオ ケント
第2著者 所属(和/英) 岐阜大学 (略称: 岐阜大)
Gifu University (略称: Gifu Univ.)
第3著者 氏名(和/英/ヨミ) 遠藤 肇 / Hajime Endo / エンドウ ハジメ
第3著者 所属(和/英) 岐阜大学 (略称: 岐阜大)
Gifu University (略称: Gifu Univ.)
第4著者 氏名(和/英/ヨミ) 速水 悟 / Satoru Hayamizu / ハヤミズ サトル
第4著者 所属(和/英) 岐阜大学 (略称: 岐阜大)
Gifu University (略称: Gifu Univ.)
第5著者 氏名(和/英/ヨミ) 戸田 智基 / Tomoki Toda / トダ トモキ
第5著者 所属(和/英) 名古屋大学 (略称: 名大)
Nagoya University (略称: Nagoya Univ.)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2018-06-28 15:10:00 
発表時間 30分 
申込先研究会 SP 
資料番号 PRMU2018-24, SP2018-4 
巻番号(vol) vol.118 
号番号(no) no.111(PRMU), no.112(SP) 
ページ範囲 pp.13-18 
ページ数
発行日 2018-06-21 (PRMU, SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会