Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案

大中 緋慧; 高道 慎之介; 井本 桂右; 岡本 悠希; 藤井 一貴; 猿渡 洋

講演名	2023-02-28 Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案大中緋慧(徳山高専), 高道慎之介(東大), 井本桂右(同志社大), 岡本悠希(立命館大), 藤井一貴(東大), 猿渡洋(東大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	オノマトペとは，音の構造を模倣する文字表現，つまり音の文字表現である．この観点から，所望のオノマトペから環境音を合成するOnoma-to-waveが提案されている．他方，オノマトペには漫画や広告，バーチャルリアリティにおける音の視覚的表現（画像オノマトペ）がある．画像オノマトペには，画像の伸縮などの文字だけでは表現できない表現が含まれており，この表現を用いることでより多様な音の合成が期待できる．そこで本研究は，画像オノマトペから環境音を合成するVisual onoma-to-waveを提案する．本手法は，画像オノマトペに含まれる視覚表現のみならず，環境音源の視覚表現（音源画像）を補助情報として，環境音を合成する．また本論文では，オノマトペの反復表現に着目したデータ拡張手法を提案し，より多様な環境音合成を可能にする．実験評価の結果から，画像オノマトペと音源画像から多様な環境音を合成できることが示す．
抄録(英)
キーワード(和)	環境音合成 / オノマトペ / 画像文字 / Deep neural network
キーワード(英)
資料番号	EA2022-90,SIP2022-134,SP2022-54
発行日	2023-02-21 (EA, SIP, SP)

研究会情報
研究会	SP / IPSJ-SLP / EA / SIP
開催期間	2023/2/28(から2日開催)
開催地（和）	沖縄県立博物館・美術館
開催地（英）
テーマ（和）	音声，応用／電気音響, 信号処理，一般
テーマ（英）
委員長氏名（和）	戸田智基(名大) / 戸田智基(名大) / 古家賢一(大分大) / 田中聡久(東京農工大)
委員長氏名（英）	Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
副委員長氏名（和）	/ / 加古達也(NTT) / 小野順貴(都立大) / 市毛弘一(横浜国大) / 仲地孝之(琉球大学)
副委員長氏名（英）	/ / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名（和）	増村亮(NTT) / 中鹿亘(電通大) / 増村亮(NTT) / 中鹿亘(電通大) / 若山圭吾(NTT) / 西浦敬信(立命館大) / 田中雄一(東京農工大) / 京地清介(北九州市大)
幹事氏名（英）	Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu)
幹事補佐氏名（和）	相原龍(三菱電機) / 齋藤大輔(東大) / 相原龍(三菱電機) / 齋藤大輔(東大) / 中山雅人(大阪産業大) / 矢田部浩平(東京農工大) / 吉田太一(電通大) / 今泉祥子(千葉大)
幹事補佐氏名（英）	Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語	JPN
タイトル（和）	Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案
サブタイトル（和）
タイトル（英）	Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
サブタイトル（和）
キーワード(1)（和/英）	環境音合成
キーワード(2)（和/英）	オノマトペ
キーワード(3)（和/英）	画像文字
キーワード(4)（和/英）	Deep neural network
第 1 著者氏名（和/英）	大中緋慧 / Hien Ohnaka
第 1 著者所属（和/英）	徳山工業高等専門学校(略称：徳山高専) National Institute of Technology, Tokuyama College(略称：NITTC)
第 2 著者氏名（和/英）	高道慎之介 / Shinnosuke Takamichi
第 2 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UT)
第 3 著者氏名（和/英）	井本桂右 / Keisuke Imoto
第 3 著者所属（和/英）	同志社大学(略称：同志社大) Doshisha University(略称：DU)
第 4 著者氏名（和/英）	岡本悠希 / Yuki Okamoto
第 4 著者所属（和/英）	立命館大学(略称：立命館大) Ritsumeikan University(略称：Rits)
第 5 著者氏名（和/英）	藤井一貴 / Kazuki Fujii
第 5 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UT)
第 6 著者氏名（和/英）	猿渡洋 / Hiroshi Saruwatari
第 6 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UT)
発表年月日	2023-02-28
資料番号	EA2022-90,SIP2022-134,SP2022-54
巻番号（vol）	vol.122
号番号（no）	EA-387,SIP-388,SP-389
ページ範囲	pp.83-88(EA), pp.83-88(SIP), pp.83-88(SP),
ページ数	6
発行日	2023-02-21 (EA, SIP, SP)