音素継続時間長のモデル化のための発話リズムに基づく話者埋め込みの検討

藤田 健一; 安藤 厚志; 井島 勇祐

講演名	2021-03-03 音素継続時間長のモデル化のための発話リズムに基づく話者埋め込みの検討藤田健一(NTT), 安藤厚志(NTT), 井島勇祐(NTT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究では，音声合成における個人ごとの音素継続時間長のモデル化に適した話者埋め込み手法について検討を行う．従来の話者埋め込みベクトルの生成手法であるx-vectorやi-vectorなどでは，メルスペクトログラムなどのスペクトル特徴量を用いているが，スペクトル特徴量は発話リズムなどの時間的特徴を明に含まないため，発話リズムの個人性が表現されていない可能性があった．そこで本論文では，音素とその継続時間長を用いた時間的特徴に基づく話者埋め込みベクトルの生成手法を提案する．そして，話者照合実験及び話者ベクトル分布から提案法は一定の話者照合精度を示し，かつ音素継続時間長が類似している話者では類似した話者埋め込みベクトルが生成されることを示す．
抄録(英)	In this study, we propose a speaker embedding method suitable for modeling phoneme duration length for each individual in speech synthesis. Conventional methods for generating speaker embedding vectors, such as x-vector and i-vector, use spectral features such as mel spectrograms. However, spectral features do not clearly include temporal features such as speech rhythms. Therefore, those vectors can discard individual speech rhythms. In this paper, we propose a method for generating speaker embedding vectors based on temporal features using phonemes and their durations. From the results of speaker recognition experiments and speaker vector distributions, we show that the proposed method shows a certain degree of accuracy in speaker recognition and that similar speaker embedding vectors are generated from speakers with similar phoneme durations.
キーワード(和)	話者埋め込み / 音素継続時間長 / 音声合成 / 発話リズム
キーワード(英)	speaker embedding / phoneme duration / speech synthesis / speaking rhythm
資料番号	EA2020-77,SIP2020-108,SP2020-42
発行日	2021-02-24 (EA, SIP, SP)

研究会情報
研究会	EA / US / SP / SIP / IPSJ-SLP
開催期間	2021/3/3(から2日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	音声,応用／電気音響,信号処理，超音波，一般
テーマ（英）	Speech, Engineering/Electro Acoustics, Signal Processing, Ultrasonics, and Related Topics
委員長氏名（和）	古家賢一(大分大) / 三浦光(日大) / 河井恒(NICT) / 林和則(京大) / 北岡教英(豊橋技科大)
委員長氏名（英）	Kenichi Furuya(Oita Univ.) / Hikaru Miura(Nihon Univ.) / Hisashi Kawai(NICT) / Kazunori Hayashi(Kyoto Univ.) / 北岡教英(豊橋技科大)
副委員長氏名（和）	梶川嘉延(関西大) / 松井健太郎(NHK) / 近藤淳(静岡大) / 小池義和(芝浦工大) / / 坂東幸浩(NTT) / 田中聡久(東京農工大)
副委員長氏名（英）	Yoshinobu Kajikawa(Kansai Univ.) / Kentaro Matsui(NHK) / Jun Kondo(Shizuoka Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.) / / Yukihiro Bandou(NTT) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
幹事氏名（和）	小山翔一(東大) / 加古達也(NTT) / 小山大介(同志社大) / 荒川元孝(東北大) / 高道慎之介(東大) / 小川哲司(早大) / 小西克巳(法政大) / 杉本憲治郎(早大) / 秋田祐哉(京大) / 太刀岡勇気(デンソーアイティーラボラトリ) / 高島遼一(神戸大) / 高道慎之介(東大)
幹事氏名（英）	Shoichi Koyama(Univ. of Tokyo) / Tatsuya Kako(NTT) / Daisuke Koyama(Doshisha Univ.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Takamichi(Univ. of Tokyo) / Tetsuji Ogawa(Waseda Univ.) / Katsumi Konishi(Hosei Univ.) / Kenjiro Sugimoto(Waseda Univ.) / 秋田祐哉(京大) / 太刀岡勇気(デンソーアイティーラボラトリ) / 高島遼一(神戸大) / 高道慎之介(東大)
幹事補佐氏名（和）	若林佑幸(都立大) / 小松達也(LINE) / 平田慎之介(東工大) / 井島勇祐(NTT) / 田中雄一(東京農工大)
幹事補佐氏名（英）	Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shinnosuke Hirata(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.)

講演論文情報詳細
申込み研究会	Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics / Technical Committee on Speech / Technical Committee on Signal Processing / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	音素継続時間長のモデル化のための発話リズムに基づく話者埋め込みの検討
サブタイトル（和）
タイトル（英）	An investigation of rhythm-based speaker embeddings for phoneme duration modeling
サブタイトル（和）
キーワード(1)（和/英）	話者埋め込み / speaker embedding
キーワード(2)（和/英）	音素継続時間長 / phoneme duration
キーワード(3)（和/英）	音声合成 / speech synthesis
キーワード(4)（和/英）	発話リズム / speaking rhythm
第 1 著者氏名（和/英）	藤田健一 / Kenichi Fujita
第 1 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone corporation(略称：NTT)
第 2 著者氏名（和/英）	安藤厚志 / Atsushi Ando
第 2 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone corporation(略称：NTT)
第 3 著者氏名（和/英）	井島勇祐 / Yusuke Ijima
第 3 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone corporation(略称：NTT)
発表年月日	2021-03-03
資料番号	EA2020-77,SIP2020-108,SP2020-42
巻番号（vol）	vol.120
号番号（no）	EA-397,SIP-398,SP-399
ページ範囲	pp.103-108(EA), pp.103-108(SIP), pp.103-108(SP),
ページ数	6
発行日	2021-02-24 (EA, SIP, SP)