拡張畳み込み構造によるSource-Target Attentionを導入したVision Transformerが少数データから獲得する識別性能とAttention Mapの解析

志村 竜希; 多田村 克己; 佐村 俊和

講演名	2023-01-29 拡張畳み込み構造によるSource-Target Attentionを導入したVision Transformerが少数データから獲得する識別性能とAttention Mapの解析志村竜希(山口大), 多田村克己(山口大), 佐村俊和(山口大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	Vision Transformer (ViT)による高い識別精度の獲得には，大規模データによる長時間の事前学習が必要とされ，畳み込み構造を入力層等に入れることで学習コストを抑えるネットワークが提案されている．本研究では，ViTに単純な拡張畳み込みの出力をSource-Target- Attentionの形で途中のEncoder層に入れるネットワークを提案する．提案ネットワークは，事前学習時のデータ数を抑えた場合においても，全てのデータを用いて学習したViTと同等の識別精度を示し，類似したAttentionを獲得できることを報告する．
抄録(英)	Vision Transformer (ViT) requires large data sets during pre-training phase to acquire high classification accuracy on any data sets. It has been proposed that ViT with convolutional input structure reduce the pre-training cost. In this study, we proposed ViT with source-target attention from dilated convolutions. We show that the proposed ViT acquire the same accuracy and attention as the conventional ViT trained with large data set even when the number of data is reduced in the pre-training phase.
キーワード(和)	Vision Transformer / Source-Target Attention / 拡張畳み込み / 少数データ
キーワード(英)	Vision Transformer / Source-Target Attention / Dilated Convolution / Small data
資料番号	NLP2022-104,NC2022-88
発行日	2023-01-21 (NLP, NC)

研究会情報
研究会	NC / NLP
開催期間	2023/1/28(から2日開催)
開催地（和）	公立はこだて未来大学
開催地（英）	Future University Hakodate
テーマ（和）	NC, NLP, 一般
テーマ（英）	NC, NLP, etc.
委員長氏名（和）	山川宏(東大) / 常田明夫(熊本大)
委員長氏名（英）	Hiroshi Yamakawa(Univ of Tokyo) / Akio Tsuneda(Kumamoto Univ.)
副委員長氏名（和）	田中宏和(東京都市大学) / 鳥飼弘幸(法政大)
副委員長氏名（英）	Hirokazu Tanaka(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.)
幹事氏名（和）	寺島裕貴(NTT) / 西田知史(NICT) / 吉岡大三郎(崇城大) / 伊藤大輔(岐阜大)
幹事氏名（英）	Hiroki Terashima(NTT) / Satoshi Nishida(NICT) / Daizaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.)
幹事補佐氏名（和）	田和辻可昌(早大) / 栗川知己(関西医科大) / 横井裕一(長崎大) / 山仲芳和(宇都宮大)
幹事補佐氏名（英）	Yoshimasa Tawatsuji(Waseda Univ.) / Tomoki Kurikawa(KMU) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Neurocomputing / Technical Committee on Nonlinear Problems
本文の言語	JPN
タイトル（和）	拡張畳み込み構造によるSource-Target Attentionを導入したVision Transformerが少数データから獲得する識別性能とAttention Mapの解析
サブタイトル（和）
タイトル（英）	Predictions and Attentions Acquired by Vision Transformer with Source-Target Attention from Dilated Convolutions on Small Data Sets
サブタイトル（和）
キーワード(1)（和/英）	Vision Transformer / Vision Transformer
キーワード(2)（和/英）	Source-Target Attention / Source-Target Attention
キーワード(3)（和/英）	拡張畳み込み / Dilated Convolution
キーワード(4)（和/英）	少数データ / Small data
第 1 著者氏名（和/英）	志村竜希 / Tatsuki Shimura
第 1 著者所属（和/英）	山口大学(略称：山口大) Yamaguchi University(略称：Yamaguchi Univ)
第 2 著者氏名（和/英）	多田村克己 / Katsumi Tadamura
第 2 著者所属（和/英）	山口大学(略称：山口大) Yamaguchi University(略称：Yamaguchi Univ)
第 3 著者氏名（和/英）	佐村俊和 / Toshikazu Samura
第 3 著者所属（和/英）	山口大学(略称：山口大) Yamaguchi University(略称：Yamaguchi Univ)
発表年月日	2023-01-29
資料番号	NLP2022-104,NC2022-88
巻番号（vol）	vol.122
号番号（no）	NLP-373,NC-374
ページ範囲	pp.123-128(NLP), pp.123-128(NC),
ページ数	6
発行日	2023-01-21 (NLP, NC)