講演名 | 2019-05-31 画像を説明する多言語音声データを利用したクロスモーダル探索 大石 康智(NTT), 木村 昭悟(NTT), 川西 隆仁(NTT), 柏野 邦夫(NTT), David Harwath(MIT), James Glass(MIT), |
---|---|
PDFダウンロードページ | ![]() |
抄録(和) | 画像とその内容を説明する音声キャプションを対応付けるためのニューラルネットワークモデルをクロスモーダル探索の観点で評価する.英語やヒンディ語に加えて,新たに収録した日本語音声キャプションからなる三か国語で学習したモデルは,一か国語だけで学習したモデルよりも精度が高いことを確認した.この三か国語モデルは,画像を基点として,異なる言語における音声単語を教師なしで対応付け,単語レベルの翻訳知識を獲得することを示す. |
抄録(英) | We evaluate a deep neural network model capable of learning to associate images and audio captions describing the content of those images on crossmodal search (image and speech retrieval). We show that training a trilingual model simultaneously on English, Hindi, and newly recorded Japanese audio caption data offers improved performance over the monolingual models. Further, we demonstrate the trilingual model implicitly learns meaningful word-level translations based on images. |
キーワード(和) | 視覚と音声言語 / 共有潜在空間 / クロスモーダル探索 / 畳み込みニューラルネットワーク |
キーワード(英) | Vision and spoken language / Shared latent space / Crossmodal search / Convolutional neural network |
資料番号 | PRMU2019-11 |
発行日 | 2019-05-23 (PRMU) |
研究会情報 | |
研究会 | PRMU / IPSJ-CVIM |
---|---|
開催期間 | 2019/5/30(から2日開催) |
開催地(和) | オリンピック記念青少年センタ |
開催地(英) | |
テーマ(和) | 第一次産業 |
テーマ(英) | |
委員長氏名(和) | 佐藤 真一(NII) |
委員長氏名(英) | Shinichi Sato(NII) |
副委員長氏名(和) | 井尻 善久(オムロン) / 玉木 徹(広島大) |
副委員長氏名(英) | Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) |
幹事氏名(和) | 石井 雅人(NEC) / 菅野 裕介(阪大) |
幹事氏名(英) | Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) |
幹事補佐氏名(和) | 入江 豪(NTT) / 牛久 祥孝(東大) |
幹事補佐氏名(英) | Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media |
---|---|
本文の言語 | JPN |
タイトル(和) | 画像を説明する多言語音声データを利用したクロスモーダル探索 |
サブタイトル(和) | |
タイトル(英) | Cross-modal Search using Visually Grounded Multilingual Speech Signal |
サブタイトル(和) | |
キーワード(1)(和/英) | 視覚と音声言語 / Vision and spoken language |
キーワード(2)(和/英) | 共有潜在空間 / Shared latent space |
キーワード(3)(和/英) | クロスモーダル探索 / Crossmodal search |
キーワード(4)(和/英) | 畳み込みニューラルネットワーク / Convolutional neural network |
第 1 著者 氏名(和/英) | 大石 康智 / Yasunori Ohishi |
第 1 著者 所属(和/英) | 日本電信電話株式会社(略称:NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称:NTT) |
第 2 著者 氏名(和/英) | 木村 昭悟 / Akisato Kimura |
第 2 著者 所属(和/英) | 日本電信電話株式会社(略称:NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称:NTT) |
第 3 著者 氏名(和/英) | 川西 隆仁 / Takahito Kawanishi |
第 3 著者 所属(和/英) | 日本電信電話株式会社(略称:NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称:NTT) |
第 4 著者 氏名(和/英) | 柏野 邦夫 / Kashino Kunio |
第 4 著者 所属(和/英) | 日本電信電話株式会社(略称:NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称:NTT) |
第 5 著者 氏名(和/英) | David Harwath / David Harwath |
第 5 著者 所属(和/英) | *(略称:MIT) Massachusetts Institute of Technology(略称:MIT) |
第 6 著者 氏名(和/英) | James Glass / James Glass |
第 6 著者 所属(和/英) | *(略称:MIT) Massachusetts Institute of Technology(略称:MIT) |
発表年月日 | 2019-05-31 |
資料番号 | PRMU2019-11 |
巻番号(vol) | vol.119 |
号番号(no) | PRMU-64 |
ページ範囲 | pp.283-288(PRMU), |
ページ数 | 6 |
発行日 | 2019-05-23 (PRMU) |