電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2019-05-31 10:00
画像を説明する多言語音声データを利用したクロスモーダル探索
大石康智・○木村昭悟川西隆仁柏野邦夫NTT)・David HarwathJames GlassMITPRMU2019-11
抄録 (和) 画像とその内容を説明する音声キャプションを対応付けるためのニューラルネットワークモデルをクロスモーダル探索の観点で評価する.英語やヒンディ語に加えて,新たに収録した日本語音声キャプションからなる三か国語で学習したモデルは,一か国語だけで学習したモデルよりも精度が高いことを確認した.この三か国語モデルは,画像を基点として,異なる言語における音声単語を教師なしで対応付け,単語レベルの翻訳知識を獲得することを示す. 
(英) We evaluate a deep neural network model capable of learning to associate images and audio captions describing the content of those images on crossmodal search (image and speech retrieval). We show that training a trilingual model simultaneously on English, Hindi, and newly recorded Japanese audio caption data offers improved performance over the monolingual models. Further, we demonstrate the trilingual model implicitly learns meaningful word-level translations based on images.
キーワード (和) 視覚と音声言語 / 共有潜在空間 / クロスモーダル探索 / 畳み込みニューラルネットワーク / / / /  
(英) Vision and spoken language / Shared latent space / Crossmodal search / Convolutional neural network / / / /  
文献情報 信学技報, vol. 119, no. 64, PRMU2019-11, pp. 283-288, 2019年5月.
資料番号 PRMU2019-11 
発行日 2019-05-23 (PRMU) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード PRMU2019-11

研究会情報
研究会 PRMU IPSJ-CVIM  
開催期間 2019-05-30 - 2019-05-31 
開催地(和) オリンピック記念青少年センタ 
開催地(英)  
テーマ(和) 第一次産業 
テーマ(英)  
講演論文情報の詳細
申込み研究会 PRMU 
会議コード 2019-05-PRMU-CVIM 
本文の言語 日本語 
タイトル(和) 画像を説明する多言語音声データを利用したクロスモーダル探索 
サブタイトル(和)  
タイトル(英) Cross-modal Search using Visually Grounded Multilingual Speech Signal 
サブタイトル(英)  
キーワード(1)(和/英) 視覚と音声言語 / Vision and spoken language  
キーワード(2)(和/英) 共有潜在空間 / Shared latent space  
キーワード(3)(和/英) クロスモーダル探索 / Crossmodal search  
キーワード(4)(和/英) 畳み込みニューラルネットワーク / Convolutional neural network  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 大石 康智 / Yasunori Ohishi / オオイシ ヤスノリ
第1著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称: NTT)
第2著者 氏名(和/英/ヨミ) 木村 昭悟 / Akisato Kimura / キムラ アキサト
第2著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称: NTT)
第3著者 氏名(和/英/ヨミ) 川西 隆仁 / Takahito Kawanishi / カワニシ タカヒト
第3著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称: NTT)
第4著者 氏名(和/英/ヨミ) 柏野 邦夫 / Kashino Kunio / カシノ クニオ
第4著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称: NTT)
第5著者 氏名(和/英/ヨミ) David Harwath / David Harwath /
第5著者 所属(和/英) * (略称: MIT)
Massachusetts Institute of Technology (略称: MIT)
第6著者 氏名(和/英/ヨミ) James Glass / James Glass /
第6著者 所属(和/英) * (略称: MIT)
Massachusetts Institute of Technology (略称: MIT)
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2019-05-31 10:00:00 
発表時間 15 
申込先研究会 PRMU 
資料番号 IEICE-PRMU2019-11 
巻番号(vol) IEICE-119 
号番号(no) no.64 
ページ範囲 pp.283-288 
ページ数 IEICE-6 
発行日 IEICE-PRMU-2019-05-23 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会