講演名 2021-03-03
音素継続時間長のモデル化のための発話リズムに基づく話者埋め込みの検討
藤田 健一(NTT), 安藤 厚志(NTT), 井島 勇祐(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,音声合成における個人ごとの音素継続時間長のモデル化に適した話者埋め込み手法について検討を行う.従来の話者埋め込みベクトルの生成手法であるx-vectorやi-vectorなどでは,メルスペクトログラムなどのスペクトル特徴量を用いているが,スペクトル特徴量は発話リズムなどの時間的特徴を明に含まないため,発話リズムの個人性が表現されていない可能性があった.そこで本論文では,音素とその継続時間長を用いた時間的特徴に基づく話者埋め込みベクトルの生成手法を提案する.そして,話者照合実験及び話者ベクトル分布から提案法は一定の話者照合精度を示し,かつ音素継続時間長が類似している話者では類似した話者埋め込みベクトルが生成されることを示す.
抄録(英) In this study, we propose a speaker embedding method suitable for modeling phoneme duration length for each individual in speech synthesis. Conventional methods for generating speaker embedding vectors, such as x-vector and i-vector, use spectral features such as mel spectrograms. However, spectral features do not clearly include temporal features such as speech rhythms. Therefore, those vectors can discard individual speech rhythms. In this paper, we propose a method for generating speaker embedding vectors based on temporal features using phonemes and their durations. From the results of speaker recognition experiments and speaker vector distributions, we show that the proposed method shows a certain degree of accuracy in speaker recognition and that similar speaker embedding vectors are generated from speakers with similar phoneme durations.
キーワード(和) 話者埋め込み / 音素継続時間長 / 音声合成 / 発話リズム
キーワード(英) speaker embedding / phoneme duration / speech synthesis / speaking rhythm
資料番号 EA2020-77,SIP2020-108,SP2020-42
発行日 2021-02-24 (EA, SIP, SP)

研究会情報
研究会 EA / US / SP / SIP / IPSJ-SLP
開催期間 2021/3/3(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 音声,応用/電気音響,信号処理,超音波,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, Ultrasonics, and Related Topics
委員長氏名(和) 古家 賢一(大分大) / 三浦 光(日大) / 河井 恒(NICT) / 林 和則(京大) / 北岡 教英(豊橋技科大)
委員長氏名(英) Kenichi Furuya(Oita Univ.) / Hikaru Miura(Nihon Univ.) / Hisashi Kawai(NICT) / Kazunori Hayashi(Kyoto Univ.) / 北岡 教英(豊橋技科大)
副委員長氏名(和) 梶川 嘉延(関西大) / 松井 健太郎(NHK) / 近藤 淳(静岡大) / 小池 義和(芝浦工大) / / 坂東 幸浩(NTT) / 田中 聡久(東京農工大)
副委員長氏名(英) Yoshinobu Kajikawa(Kansai Univ.) / Kentaro Matsui(NHK) / Jun Kondo(Shizuoka Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.) / / Yukihiro Bandou(NTT) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
幹事氏名(和) 小山 翔一(東大) / 加古 達也(NTT) / 小山 大介(同志社大) / 荒川 元孝(東北大) / 高道 慎之介(東大) / 小川 哲司(早大) / 小西 克巳(法政大) / 杉本 憲治郎(早大) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーアイティーラボラトリ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事氏名(英) Shoichi Koyama(Univ. of Tokyo) / Tatsuya Kako(NTT) / Daisuke Koyama(Doshisha Univ.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Takamichi(Univ. of Tokyo) / Tetsuji Ogawa(Waseda Univ.) / Katsumi Konishi(Hosei Univ.) / Kenjiro Sugimoto(Waseda Univ.) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーアイティーラボラトリ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事補佐氏名(和) 若林 佑幸(都立大) / 小松 達也(LINE) / 平田 慎之介(東工大) / 井島 勇祐(NTT) / 田中 雄一(東京農工大)
幹事補佐氏名(英) Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shinnosuke Hirata(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics / Technical Committee on Speech / Technical Committee on Signal Processing / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 音素継続時間長のモデル化のための発話リズムに基づく話者埋め込みの検討
サブタイトル(和)
タイトル(英) An investigation of rhythm-based speaker embeddings for phoneme duration modeling
サブタイトル(和)
キーワード(1)(和/英) 話者埋め込み / speaker embedding
キーワード(2)(和/英) 音素継続時間長 / phoneme duration
キーワード(3)(和/英) 音声合成 / speech synthesis
キーワード(4)(和/英) 発話リズム / speaking rhythm
第 1 著者 氏名(和/英) 藤田 健一 / Kenichi Fujita
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone corporation(略称:NTT)
第 2 著者 氏名(和/英) 安藤 厚志 / Atsushi Ando
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone corporation(略称:NTT)
第 3 著者 氏名(和/英) 井島 勇祐 / Yusuke Ijima
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone corporation(略称:NTT)
発表年月日 2021-03-03
資料番号 EA2020-77,SIP2020-108,SP2020-42
巻番号(vol) vol.120
号番号(no) EA-397,SIP-398,SP-399
ページ範囲 pp.103-108(EA), pp.103-108(SIP), pp.103-108(SP),
ページ数 6
発行日 2021-02-24 (EA, SIP, SP)