講演名 2023-10-14
知覚的話者間類似度との関連に着目した話者埋め込み空間の構成法の比較検討
森田 湧大(東大), 齋藤 大輔(東大), 峯松 信明(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では、話者埋め込み特徴量に基づく話者間類似度と主観評価実験に基づく知覚的話者間類似度との対応関係について、複数の話者埋め込み手法の比較・分析を行った。筆者らのこれまでの実験により、話者埋め込み特徴量の次元数を変化させた場合に、上述の対応関係について傾向の変化が見られることが明らかとなっている。これに対して、本稿では低次元においても識別能力の高い潜在表現を得られる話者埋め込み手法を導入し、埋め込み空間の違いが人間の知覚との対応関係に与える影響について更なる議論を進める。実験の結果より、埋め込み手法の違いに依らない大局的な傾向が確認された一方、埋め込み空間の性質により、次元数が変化した場合における傾向の変化の程度は異なることが明らかとなった。
抄録(英) This study examines the correspondence between inter-speaker similarity based on speaker embeddings and perceptual speaker similarity based on human listening tests. In our previous study, we have shown that the tendency of correspondence mentioned above depends on the dimension of embedding space. This paper introduces a speaker embedding method which can encode discriminative information on speaker individuality even in low dimensions, and discusses the effect of differences in embedding methods on the correspondence with human perception. The experimental results have shown that 1) a general tendency independent of the embedding methods was confirmed and 2) the degree of change in the tendency depended on the embedding methods.
キーワード(和) 話者埋め込み / 人間の知覚 / Triplet Loss / ポワンカレ埋め込み
キーワード(英) Speaker Embeddings / Human Perception / Triplet Loss / Poincar? Embeddings
資料番号 SP2023-31,WIT2023-22
発行日 2023-10-07 (SP, WIT)

研究会情報
研究会 WIT / SP / IPSJ-SLP
開催期間 2023/10/14(から1日開催)
開催地(和) 九州工業大学(戸畑キャンパス)
開催地(英) Kyushu Institute of Technology
テーマ(和) 音声と福祉情報工学,一般
テーマ(英) Speech and Well-being Information Technology, etc.
委員長氏名(和) 塩野目 剛亮(帝京大) / 戸田 智基(名大) / 戸田 智基(名大)
委員長氏名(英) Takeaki Shionome(Teikyo Univ.) / Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.)
副委員長氏名(和) 酒向 慎司(名工大)
副委員長氏名(英) Shinji Sakou(Nagoya Inst. of Tech.)
幹事氏名(和) 細野 美奈子(産総研) / 菅野 亜紀(富山大) / 宮城 愛美(筑波技術大) / 安藤 厚志(NTT) / 橋本 佳(名工大) / 安藤 厚志(NTT) / 橋本 佳(名工大) / 相原 龍(三菱電機) / 齋藤 大輔(東大)
幹事氏名(英) Minako Hosono(AIST) / Aki Sugano(Univ. of Toyama) / Manabi Miyagi(Tsukuba Univ. of Tech.) / Atsushi Ando(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Atsushi Ando(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(UTokyo)
幹事補佐氏名(和) 内田 翼(NHK) / 三浦 哲平(豊田高専) / 相原 龍(三菱電機) / 齋藤 大輔(東大)
幹事補佐氏名(英) Tsubasa Uchida(NHK) / Teppei Miura(National Inst. of Techn. Toyota College) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会 Technical Committee on Well-being Information Technology / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 知覚的話者間類似度との関連に着目した話者埋め込み空間の構成法の比較検討
サブタイトル(和)
タイトル(英) Comparative study on different speaker embedding spaces focusing on the relation to perceptual inter-speaker similarity
サブタイトル(和)
キーワード(1)(和/英) 話者埋め込み / Speaker Embeddings
キーワード(2)(和/英) 人間の知覚 / Human Perception
キーワード(3)(和/英) Triplet Loss / Triplet Loss
キーワード(4)(和/英) ポワンカレ埋め込み / Poincar? Embeddings
第 1 著者 氏名(和/英) 森田 湧大 / Wakuto Morita
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
第 2 著者 氏名(和/英) 齋藤 大輔 / Daisuke Saito
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
第 3 著者 氏名(和/英) 峯松 信明 / Nobuaki Minematsu
第 3 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
発表年月日 2023-10-14
資料番号 SP2023-31,WIT2023-22
巻番号(vol) vol.123
号番号(no) SP-212,WIT-213
ページ範囲 pp.21-26(SP), pp.21-26(WIT),
ページ数 6
発行日 2023-10-07 (SP, WIT)