講演名 2022-03-11
トランスフォーマーを含むネットワークでの4Kリアルタイム画像対画像変換
柴崎 圭(慶大), 福崎 翔太(慶大), 池原 雅章(慶大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,Transformer をコンピュータビジョンに応用したネットワークが注目を集めており,優れた結果を残しているが,計算量やメモリの使用量が欠点でもある.そこで,本論文では Image to Image Translationのネットワークである Laplacian Pyramid Translation Transformer (LPTT) を提案する.LPTT はラプラシアンピラミッドを作成することで計算量やメモリの使用量を抑えつつ Transformer の表現力を得ており,従来手法と比べて優れた結果を残している.LPTT は Transformer を含むネットワークで 4K ほどの高解像度画像に対してリアルタイム推論が行える初めてのネットワークである.また,LPTT は条件によっては 8K 画像もリアルタイムで推論できる.また,本論文では,高解像度の画像を処理する場合でも Transformer に低解像度の成分を計算させるだけで性能を上げることができるということを示唆している.
抄録(英) We propose Laplacian Pyramid Translation Transformer (LPTT), a network for image to image translation. LPTT creates a Laplacian pyramid and transforms low-frequency components with Axial Transformer block. LPTT achieves Transformer’s expressive power while reducing the computational cost and memory usage. LPTT improves the quality of generated images and inference speed for high-resolution. LPTT is the first network including Transformer that can process 4K resolution image on real time. LPTT can also process 8K images on real time. This paper also suggests that the performance can be improved while maintaining the inference speed by computing the low-resolution component by Transformer.
キーワード(和) 深層学習 / 画像対画像変換 / ラプラシアンピラミッド / フォトレタッチ / トランスフォーマー
キーワード(英) Deep learning / Image to image translation / Laplacian pyramid / Photo retouching / Transformer
資料番号 IMQ2021-51,IE2021-113,MVE2021-80
発行日 2022-03-02 (IMQ, IE, MVE)

研究会情報
研究会 CQ / IMQ / MVE / IE
開催期間 2022/3/9(から3日開催)
開催地(和) オンライン開催(Zoom)
開催地(英) Online (Zoom)
テーマ(和) 変化する生活での五感に訴えるオンラインメディアとその評価、および一般(魅力工学研究会協賛)
テーマ(英) Media of five senses, Multimedia, Media experience, Picture codinge, Image media quality, Network,quality and reliability, etc
委員長氏名(和) 岡本 淳(NTT) / 魚森 謙也(阪大) / 井原 雅行(理研) / 児玉 和也(NII)
委員長氏名(英) Jun Okamoto(NTT) / Kenya Uomori(Osaka Univ.) / Masayuki Ihara(RIKEN) / Kazuya Kodama(NII)
副委員長氏名(和) 平栗 健史(日本工大) / 長谷川 剛(東北大) / 前田 充(キヤノン) / 清川 清(奈良先端大) / 坂東 幸浩(NTT) / 山崎 俊彦(東大)
副委員長氏名(英) Takefumi Hiraguri(Nippon Inst. of Tech.) / Gou Hasegawa(Tohoku Univ.) / Mitsuru Maeda(Canon) / Kiyoshi Kiyokawa(NAIST) / Hiroyuki Bandoh(NTT) / Toshihiko Yamazaki(Univ. of Tokyo)
幹事氏名(和) アベセカラ ヒランタ(NTT) / 山本 寛(立命館大) / 工藤 博章(名大) / 土田 勝(NTT) / 西口 敏司(阪工大) / 横山 正典(NTT) / 福嶋 政期(東大) / 海野 恭平(KDDI総合研究所) / 福嶋 慶繁(名工大)
幹事氏名(英) Hirantha Abeysekera(NTT) / Hiroshi Yamamoto(Ritsumeikan Univ.) / Hiroaki Kudo(Nagoya Univ.) / Masaru Tsuchida(NTT) / Satoshi Nishiguchi(Oosaka Inst. of Tech.) / Masanori Yokoyama(NTT) / Shogo Fukushima(Univ. of ToKyo) / Kyohei Unno(KDDI Research) / Norishige Fukushima(Nagoya Inst. of Tech.)
幹事補佐氏名(和) 西川 由明(NEC) / 堅岡 良知(KDDI総合研究所) / 川嶋 喜美子(NTT) / 塚田 正人(NEC) / 山添 崇(成蹊大) / 磯山 直也(奈良先端大) / 原 豪紀(大日本印刷) / 後藤 充裕(NTT) / 岩村 俊輔(NHK) / 工藤 忍(NTT)
幹事補佐氏名(英) Yoshiaki Nishikawa(NEC) / Ryoichi Kataoka(KDDI Research) / Kimiko Kawashima(NTT) / Masato Tsukada(NEC) / Takashi Yamazoe(Seikei Univ.) / Naoya Isoyama(NAIST) / Takenori Hara(DNP) / Mitsuhiro Goto(NTT) / Shunsuke Iwamura(NHK) / Shinobu Kudo(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Communication Quality / Technical Committee on Image Media Quality / Technical Committee on Media Experience and Virtual Environment / Technical Committee on Image Engineering
本文の言語 JPN
タイトル(和) トランスフォーマーを含むネットワークでの4Kリアルタイム画像対画像変換
サブタイトル(和)
タイトル(英) 4K real time image to image translation network including Transformer
サブタイトル(和)
キーワード(1)(和/英) 深層学習 / Deep learning
キーワード(2)(和/英) 画像対画像変換 / Image to image translation
キーワード(3)(和/英) ラプラシアンピラミッド / Laplacian pyramid
キーワード(4)(和/英) フォトレタッチ / Photo retouching
キーワード(5)(和/英) トランスフォーマー / Transformer
第 1 著者 氏名(和/英) 柴崎 圭 / Kei Shibasaki
第 1 著者 所属(和/英) 慶應義塾大学(略称:慶大)
Keio University(略称:Keio Univ)
第 2 著者 氏名(和/英) 福崎 翔太 / Shota Fukuzaki
第 2 著者 所属(和/英) 慶應義塾大学(略称:慶大)
Keio University(略称:Keio Univ)
第 3 著者 氏名(和/英) 池原 雅章 / Masaki Ikehara
第 3 著者 所属(和/英) 慶應義塾大学(略称:慶大)
Keio University(略称:Keio Univ)
発表年月日 2022-03-11
資料番号 IMQ2021-51,IE2021-113,MVE2021-80
巻番号(vol) vol.121
号番号(no) IMQ-420,IE-422,MVE-423
ページ範囲 pp.209-215(IMQ), pp.209-215(IE), pp.209-215(MVE),
ページ数 7
発行日 2022-03-02 (IMQ, IE, MVE)