講演抄録/キーワード |
講演名 |
2015-05-21 15:20
ビデオ通話における音声および表情特徴量を用いた話者変換の検討 ○齋藤優貴・能勢 隆(東北大)・篠崎隆宏(東工大)・伊藤彰則(東北大) IT2015-9 EMM2015-9 |
抄録 |
(和) |
本稿では、ビデオ通話において話者(元話者)の顔画像の個人性を別の話者(目標話者)のものに変換する手法を2つ提案する。
提案法1では、あらかじめ元話者と目標話者の発話を学習データとして用意し、これから音声特徴量と顔画像特徴量を抽出する。この際、顔画像特徴量はピクセルデータに対し主成分分析をして次元圧縮をしたものを使用する。
提案法2では,Kinect v2を用いて目標話者の顔画像の収録を行い、表情特徴量と顔画像特徴量を抽出する。表情特徴量はAnimation Unitパラメータを使用し,顔画像特徴量は提案法1と同様の手法を用いる.
これらの提案法において特徴量をニューラルネットワークで学習し変換を行った.
この結果,提案法1では,顔の概形は変換できたものの口の動きは変換することができなかった.
提案法2では,顔の概形や口の動きが若干変換することができている一方で,顔画像の劣化が大きいという結果となった. |
(英) |
In this paper, we suggest two method that the individuality of the face of original speaker convert that of target speaker. In the method 1, in advance we prepare the speech data of original and target speaker for learning data, then we extract the audio feature value and face image feature value from it. The face image feature value is the thing that apply principal component analysis to pixel data and reduce dimention.
In the method 2, in advance we record the face image of target speaker, then extract the face expression feature value and face image feature value from it. We use Animation Unit parameter as the face expression feature value, and the face image feature value is the same as the method 1.
In these methods, We used the feature values for neural network learning, and converted feature values using it.
As a result, in the method 1, we could convert general form of the face well, but couldn't convert mouth movement.
In the method 2, we could convert general form of the face and mouth movement in some degree, but the quality of face image was deteriorated. |
キーワード |
(和) |
話者変換 / 顔画像変換 / ニューラルネットワーク / 主成分分析 / Kinect v2 / / / |
(英) |
speaker conversion / face conversion / neural network / principal component analysis / Kinect v2 / / / |
文献情報 |
信学技報, vol. 115, no. 38, EMM2015-9, pp. 45-50, 2015年5月. |
資料番号 |
EMM2015-9 |
発行日 |
2015-05-14 (IT, EMM) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IT2015-9 EMM2015-9 |
|