講演名 2023-02-28
Visual onoma-to-wave:画像オノマトペと音源画像を利用した環境音合成の提案
大中 緋慧(徳山高専), 高道 慎之介(東大), 井本 桂右(同志社大), 岡本 悠希(立命館大), 藤井 一貴(東大), 猿渡 洋(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) オノマトペとは,音の構造を模倣する文字表現,つまり音の文字表現である.この観点から,所望のオノマトペから環境音を合成するOnoma-to-waveが提案されている.他方,オノマトペには漫画や広告,バーチャルリアリティにおける音の視覚的表現(画像オノマトペ)がある.画像オノマトペには,画像の伸縮などの文字だけでは表現できない表現が含まれており,この表現を用いることでより多様な音の合成が期待できる.そこで本研究は,画像オノマトペから環境音を合成するVisual onoma-to-waveを提案する.本手法は,画像オノマトペに含まれる視覚表現のみならず,環境音源の視覚表現(音源画像)を補助情報として,環境音を合成する.また本論文では,オノマトペの反復表現に着目したデータ拡張手法を提案し,より多様な環境音合成を可能にする.実験評価の結果から,画像オノマトペと音源画像から多様な環境音を合成できることが示す.
抄録(英)
キーワード(和) 環境音合成 / オノマトペ / 画像文字 / Deep neural network
キーワード(英)
資料番号 EA2022-90,SIP2022-134,SP2022-54
発行日 2023-02-21 (EA, SIP, SP)

研究会情報
研究会 SP / IPSJ-SLP / EA / SIP
開催期間 2023/2/28(から2日開催)
開催地(和) 沖縄県立博物館・美術館
開催地(英)
テーマ(和) 音声,応用/電気音響, 信号処理,一般
テーマ(英)
委員長氏名(和) 戸田 智基(名大) / 戸田 智基(名大) / 古家 賢一(大分大) / 田中 聡久(東京農工大)
委員長氏名(英) Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
副委員長氏名(和) / / 加古 達也(NTT) / 小野 順貴(都立大) / 市毛 弘一(横浜国大) / 仲地 孝之(琉球大学)
副委員長氏名(英) / / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名(和) 増村 亮(NTT) / 中鹿 亘(電通大) / 増村 亮(NTT) / 中鹿 亘(電通大) / 若山 圭吾(NTT) / 西浦 敬信(立命館大) / 田中 雄一(東京農工大) / 京地 清介(北九州市大)
幹事氏名(英) Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu)
幹事補佐氏名(和) 相原 龍(三菱電機) / 齋藤 大輔(東大) / 相原 龍(三菱電機) / 齋藤 大輔(東大) / 中山 雅人(大阪産業大) / 矢田部 浩平(東京農工大) / 吉田 太一(電通大) / 今泉 祥子(千葉大)
幹事補佐氏名(英) Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語 JPN
タイトル(和) Visual onoma-to-wave:画像オノマトペと音源画像を利用した環境音合成の提案
サブタイトル(和)
タイトル(英) Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
サブタイトル(和)
キーワード(1)(和/英) 環境音合成
キーワード(2)(和/英) オノマトペ
キーワード(3)(和/英) 画像文字
キーワード(4)(和/英) Deep neural network
第 1 著者 氏名(和/英) 大中 緋慧 / Hien Ohnaka
第 1 著者 所属(和/英) 徳山工業高等専門学校(略称:徳山高専)
National Institute of Technology, Tokuyama College(略称:NITTC)
第 2 著者 氏名(和/英) 高道 慎之介 / Shinnosuke Takamichi
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UT)
第 3 著者 氏名(和/英) 井本 桂右 / Keisuke Imoto
第 3 著者 所属(和/英) 同志社大学(略称:同志社大)
Doshisha University(略称:DU)
第 4 著者 氏名(和/英) 岡本 悠希 / Yuki Okamoto
第 4 著者 所属(和/英) 立命館大学(略称:立命館大)
Ritsumeikan University(略称:Rits)
第 5 著者 氏名(和/英) 藤井 一貴 / Kazuki Fujii
第 5 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UT)
第 6 著者 氏名(和/英) 猿渡 洋 / Hiroshi Saruwatari
第 6 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UT)
発表年月日 2023-02-28
資料番号 EA2022-90,SIP2022-134,SP2022-54
巻番号(vol) vol.122
号番号(no) EA-387,SIP-388,SP-389
ページ範囲 pp.83-88(EA), pp.83-88(SIP), pp.83-88(SP),
ページ数 6
発行日 2023-02-21 (EA, SIP, SP)