講演名 2023-02-28
発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成
西原 美玖(名工大), 法野 行哉(名工大), 橋本 佳(名工大), 南角 吉彦(名工大), 徳田 恵一(名工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 歌声合成において,歌声と楽譜の時間構造の同期は重要である.従来のニューラルネットワークに基づく歌声合成では,アライナーで得られた音素境界に基づき歌声の時間構造や音響特徴量をモデル化する手法が検討されているが,アライメントの推定誤差が時間構造のモデル化だけでなく音響特徴量のモデル化にも影響を及ぼすため,アライナーの精度が合成音声の自然性を左右する.この問題に対し,フレーム駆動型アテンション機構に基づくsequence-to-sequence音響モデルを導入する.さらに,適切なアライナーが用意できない場合に有効な,ヒューリスティックなルールに基づく擬似的な音素境界を用いた手法について比較する.
抄録(英) This paper proposes singing voice synthesis (SVS) based on a frame-driven attention mechanism considering vocal timing deviation. In many SVS systems, the sound quality is affected by the aligner accuracy because phoneme-level score features are converted into frame-level ones based on phoneme boundaries obtained by external aligners taking into account actual vocal timing. To alleviate this problem, we introduce an attention mechanism to absorb alignment errors in phoneme boundaries with frame-level features. We also propose a system with pseudo-phoneme-boundaries defined by heuristic rules based on musical scores. The experimental results show the effectiveness of the proposed systems.
キーワード(和) 歌声合成 / フレーム駆動型アテンション機構 / sequence-to-sequenceモデル / 発声タイミングのずれ / 擬似音素境界
キーワード(英) Singing voice synthesis / frame-driven attention mechanism / sequence-to-sequence model / vocal timing deviation / pseudo-phoneme-boundaries
資料番号 EA2022-78,SIP2022-122,SP2022-42
発行日 2023-02-21 (EA, SIP, SP)

研究会情報
研究会 SP / IPSJ-SLP / EA / SIP
開催期間 2023/2/28(から2日開催)
開催地(和) 沖縄県立博物館・美術館
開催地(英)
テーマ(和) 音声,応用/電気音響, 信号処理,一般
テーマ(英)
委員長氏名(和) 戸田 智基(名大) / 戸田 智基(名大) / 古家 賢一(大分大) / 田中 聡久(東京農工大)
委員長氏名(英) Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
副委員長氏名(和) / / 加古 達也(NTT) / 小野 順貴(都立大) / 市毛 弘一(横浜国大) / 仲地 孝之(琉球大学)
副委員長氏名(英) / / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名(和) 増村 亮(NTT) / 中鹿 亘(電通大) / 増村 亮(NTT) / 中鹿 亘(電通大) / 若山 圭吾(NTT) / 西浦 敬信(立命館大) / 田中 雄一(東京農工大) / 京地 清介(北九州市大)
幹事氏名(英) Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu)
幹事補佐氏名(和) 相原 龍(三菱電機) / 齋藤 大輔(東大) / 相原 龍(三菱電機) / 齋藤 大輔(東大) / 中山 雅人(大阪産業大) / 矢田部 浩平(東京農工大) / 吉田 太一(電通大) / 今泉 祥子(千葉大)
幹事補佐氏名(英) Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語 JPN
タイトル(和) 発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成
サブタイトル(和)
タイトル(英) Singing voice synthesis based on a frame-driven attention mechanism considering vocal timing deviation
サブタイトル(和)
キーワード(1)(和/英) 歌声合成 / Singing voice synthesis
キーワード(2)(和/英) フレーム駆動型アテンション機構 / frame-driven attention mechanism
キーワード(3)(和/英) sequence-to-sequenceモデル / sequence-to-sequence model
キーワード(4)(和/英) 発声タイミングのずれ / vocal timing deviation
キーワード(5)(和/英) 擬似音素境界 / pseudo-phoneme-boundaries
第 1 著者 氏名(和/英) 西原 美玖 / Miku Nishihara
第 1 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NITech)
第 2 著者 氏名(和/英) 法野 行哉 / Yukiya Hono
第 2 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NITech)
第 3 著者 氏名(和/英) 橋本 佳 / Kei Hashimoto
第 3 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NITech)
第 4 著者 氏名(和/英) 南角 吉彦 / Yoshihiko Nankaku
第 4 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NITech)
第 5 著者 氏名(和/英) 徳田 恵一 / Keiichi Tokuda
第 5 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NITech)
発表年月日 2023-02-28
資料番号 EA2022-78,SIP2022-122,SP2022-42
巻番号(vol) vol.122
号番号(no) EA-387,SIP-388,SP-389
ページ範囲 pp.19-24(EA), pp.19-24(SIP), pp.19-24(SP),
ページ数 6
発行日 2023-02-21 (EA, SIP, SP)