講演名 2023-01-29
拡張畳み込み構造によるSource-Target Attentionを導入したVision Transformerが少数データから獲得する識別性能とAttention Mapの解析
志村 竜希(山口大), 多田村 克己(山口大), 佐村 俊和(山口大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Vision Transformer (ViT)による高い識別精度の獲得には,大規模データによる長時間の事前学習が必要とされ,畳み込み構造を入力層等に入れることで学習コストを抑えるネットワークが提案されている.本研究では,ViTに単純な拡張畳み込みの出力をSource-Target- Attentionの形で途中のEncoder層に入れるネットワークを提案する.提案ネットワークは,事前学習時のデータ数を抑えた場合においても,全てのデータを用いて学習したViTと同等の識別精度を示し,類似したAttentionを獲得できることを報告する.
抄録(英) Vision Transformer (ViT) requires large data sets during pre-training phase to acquire high classification accuracy on any data sets. It has been proposed that ViT with convolutional input structure reduce the pre-training cost. In this study, we proposed ViT with source-target attention from dilated convolutions. We show that the proposed ViT acquire the same accuracy and attention as the conventional ViT trained with large data set even when the number of data is reduced in the pre-training phase.
キーワード(和) Vision Transformer / Source-Target Attention / 拡張畳み込み / 少数データ
キーワード(英) Vision Transformer / Source-Target Attention / Dilated Convolution / Small data
資料番号 NLP2022-104,NC2022-88
発行日 2023-01-21 (NLP, NC)

研究会情報
研究会 NC / NLP
開催期間 2023/1/28(から2日開催)
開催地(和) 公立はこだて未来大学
開催地(英) Future University Hakodate
テーマ(和) NC, NLP, 一般
テーマ(英) NC, NLP, etc.
委員長氏名(和) 山川 宏(東大) / 常田 明夫(熊本大)
委員長氏名(英) Hiroshi Yamakawa(Univ of Tokyo) / Akio Tsuneda(Kumamoto Univ.)
副委員長氏名(和) 田中 宏和(東京都市大学) / 鳥飼 弘幸(法政大)
副委員長氏名(英) Hirokazu Tanaka(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.)
幹事氏名(和) 寺島 裕貴(NTT) / 西田 知史(NICT) / 吉岡 大三郎(崇城大) / 伊藤 大輔(岐阜大)
幹事氏名(英) Hiroki Terashima(NTT) / Satoshi Nishida(NICT) / Daizaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.)
幹事補佐氏名(和) 田和辻 可昌(早大) / 栗川 知己(関西医科大) / 横井 裕一(長崎大) / 山仲 芳和(宇都宮大)
幹事補佐氏名(英) Yoshimasa Tawatsuji(Waseda Univ.) / Tomoki Kurikawa(KMU) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Neurocomputing / Technical Committee on Nonlinear Problems
本文の言語 JPN
タイトル(和) 拡張畳み込み構造によるSource-Target Attentionを導入したVision Transformerが少数データから獲得する識別性能とAttention Mapの解析
サブタイトル(和)
タイトル(英) Predictions and Attentions Acquired by Vision Transformer with Source-Target Attention from Dilated Convolutions on Small Data Sets
サブタイトル(和)
キーワード(1)(和/英) Vision Transformer / Vision Transformer
キーワード(2)(和/英) Source-Target Attention / Source-Target Attention
キーワード(3)(和/英) 拡張畳み込み / Dilated Convolution
キーワード(4)(和/英) 少数データ / Small data
第 1 著者 氏名(和/英) 志村 竜希 / Tatsuki Shimura
第 1 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ)
第 2 著者 氏名(和/英) 多田村 克己 / Katsumi Tadamura
第 2 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ)
第 3 著者 氏名(和/英) 佐村 俊和 / Toshikazu Samura
第 3 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ)
発表年月日 2023-01-29
資料番号 NLP2022-104,NC2022-88
巻番号(vol) vol.122
号番号(no) NLP-373,NC-374
ページ範囲 pp.123-128(NLP), pp.123-128(NC),
ページ数 6
発行日 2023-01-21 (NLP, NC)