講演名 2020-03-06
時空間的特徴を考慮したDNNによる手話翻訳手法の比較検討
渡邊 滉大(早大), 亀山 渉(早大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 動画からの手話翻訳において、AlexNetと呼ばれる2DCNN(2次元畳み込みニューラルネットワーク)とSeq2Seqと呼ばれる機械翻訳モデルを組み合わせた手話翻訳モデルが提案されている。これは、2DCNNによって空間的な情報を失った特徴量からGRU(Gated Recurrent Unit)によって時系列的な特徴量を抽出している手法と考えられる。しかし、手話の動作は手及び指の位置や形とその動きによって形成されるため、空間的な情報を保ったまま時系列的な情報を考慮できる手法がより適していると考えられる。そこで、本稿では、動画の各フレームから特徴量を抽出する段階で、時系列的な情報を考慮する様々な手法を提案し、比較検討を行った。時空間的特徴量抽出器の比較実験の結果、本実験で使用したデータセットでは、最適化されるパラメータの数と手話翻訳性能が反比例することが示唆された。そのため、パラメータ数が最も少ないOptical Flowのみを入力としたモデルが高い手話翻訳性能を示したと考えられる。
抄録(英) In Neural Sign Language Translation, a model based on 2DCNN (2 Dimensional Convolutional Neural Network) called AlexNet and a neural machine translation model called Seq2Seq has been proposed. In this model, temporal information is extracted by GRU (Gated Recurrent Unit) from the features in which the spatial information is lost by 2DCNN. However, since sign language uses position, shape and motion of hands and fingers, a model that can extract temporal information from the features that contain spatial information seems to be more suitable. Therefore, in this paper, we propose various methods and compare them that extract temporal information at the stage of extracting spatial features from each frame of video. As the result of the comparison experiment of the various spatio-temporal feature extractors, it is suggested that the number of to-be-optimized parameters and the performance of sign language translation are inversely proportional on the dataset used in this experiment. That seems the reason why the model using only Optical Flow shows the highest performance in sign language translation because it has the least number of parameters to be trained.
キーワード(和) 手話翻訳 / 時空間的特徴 / DNN / Optical Flow
キーワード(英) Neural Sign Language Translation / Spatio-temporal Features / DNN / Optical Flow
資料番号 IMQ2019-68,IE2019-150,MVE2019-89
発行日 2020-02-27 (IMQ, IE, MVE)

研究会情報
研究会 IE / IMQ / MVE / CQ
開催期間 2020/3/5(から2日開催)
開催地(和) 九州工業大学 戸畑キャンパス
開催地(英) Kyushu Institute of Technology
テーマ(和) 五感メディア,マルチメディア,メディアエクスペリエンス, 映像符号化,イメージメディアの品質,ネットワークの品質 および信頼性,一般 (魅力工学(AC)研究会協賛)
テーマ(英)
委員長氏名(和) 木全 英明(NTT) / 中口 俊哉(千葉大) / 間瀬 健二(名大) / 下西 英之(NEC)
委員長氏名(英) Hideaki Kimata(NTT) / Toshiya Nakaguchi(Chiba Univ.) / Kenji Mase(Nagoya Univ.) / Hideyuki Shimonishi(NEC)
副委員長氏名(和) 児玉 和也(NII) / 高橋 桂太(名大) / 前田 充(キヤノン) / 魚森 謙也(阪大) / 井原 雅行(NTT) / 岡本 淳(NTT) / 平栗 健史(日本工大)
副委員長氏名(英) Kazuya Kodama(NII) / Keita Takahashi(Nagoya Univ.) / Mitsuru Maeda(Canon) / Kenya Uomori(Osaka Univ.) / Masayuki Ihara(NTT) / Jun Okamoto(NTT) / Takefumi Hiraguri(Nippon Inst. of Tech.)
幹事氏名(和) 早瀬 和也(NTT) / 松尾 康孝(NHK) / 大橋 剛介(静岡大) / 齊藤 新一郎(ソニーセミコンダクタソリューションズ) / 平山 高嗣(名大) / 青木 良輔(NTT) / 大田 健紘(日本工大) / 木村 共孝(同志社大) / 山中 広明(NICT)
幹事氏名(英) Kazuya Hayase(NTT) / Yasutaka Matsuo(NHK) / Gosuke Ohashi(Shizuoka Univ.) / Shinichiro Saito(Sony Semiconductor Solutions) / Takatsugu Hirayama(Nagoya Univ.) / Ryosuke Aoki(NTT) / Kenko Ota(Nippon Inst. of Tech.) / Tomotaka Kimura(Doshisha Univ.) / Hiroaki Yamanaka(NICT)
幹事補佐氏名(和) 海野 恭平(KDDI総合研究所) / 福嶋 慶繁(名工大) / 工藤 博章(名大) / 土田 勝(NTT) / 平井 経太(千葉大) / 西口 敏司(阪工大) / 横山 正典(NTT) / 福嶋 政期(東大) / 佐々木 力(KDDI総合研究所) / 西川 由明(NEC) / 木村 拓人(NTT)
幹事補佐氏名(英) Kyohei Unno(KDDI Research) / Norishige Fukushima(Nagoya Inst. of Tech.) / Hiroaki Kudo(Nagoya Univ.) / Masaru Tsuchida(NTT) / Keita Hirai(Chiba Univ.) / Satoshi Nishiguchi(Oosaka Inst. of Tech.) / Masanori Yokoyama(NTT) / Shogo Fukushima(Univ. of ToKyo) / Chikara Sasaki(KDDI Research) / Yoshiaki Nishikawa(NEC) / Takuto Kimura(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Image Engineering / Technical Committee on Image Media Quality / Technical Committee on Media Experience and Virtual Environment / Technical Committee on Communication Quality
本文の言語 JPN
タイトル(和) 時空間的特徴を考慮したDNNによる手話翻訳手法の比較検討
サブタイトル(和)
タイトル(英) A Comparison Study of Neural Sign Language Translation Methods with Spatio-Temporal Features
サブタイトル(和)
キーワード(1)(和/英) 手話翻訳 / Neural Sign Language Translation
キーワード(2)(和/英) 時空間的特徴 / Spatio-temporal Features
キーワード(3)(和/英) DNN / DNN
キーワード(4)(和/英) Optical Flow / Optical Flow
第 1 著者 氏名(和/英) 渡邊 滉大 / Kodai Watanabe
第 1 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
第 2 著者 氏名(和/英) 亀山 渉 / Wataru Kameyama
第 2 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
発表年月日 2020-03-06
資料番号 IMQ2019-68,IE2019-150,MVE2019-89
巻番号(vol) vol.119
号番号(no) IMQ-454,IE-456,MVE-457
ページ範囲 pp.273-278(IMQ), pp.273-278(IE), pp.273-278(MVE),
ページ数 6
発行日 2020-02-27 (IMQ, IE, MVE)