講演名 2022-12-16
姿勢変換のための姿勢知覚トランスフォーマーネットワーク
柴崎 圭(慶大), 池原 雅章(慶大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 姿勢変換は,ソースの画像とその姿勢の情報,ターゲットの姿勢情報から人物画像の姿勢変換を行うタスクである.従来手法の多くは,追加のパース情報・タスクの必要性があり,実用性が制限される.また,CNNを用いるため画像全体の整合性を考慮できない.本論文では画像の整合性の問題に対応した実用的な姿勢変換ネットワークを提案する.提案手法では,姿勢変換というタスクを,「大まかな姿勢の変換」と「詳細なテクスチャの生成」という2つのタスクに分離する.前者のタスクでは低解像度の特徴マップに対して, Axial Transformer を含むブロックで変換を行う.後者のタスクはCNNネットワークを用いている.提案ネットワークは非常に軽量であるが優れた性能を獲得している.
抄録(英) Pose Guided Person Image Generation (PGPIG) is the task that transforms the pose of a person image from the source image, its pose information and the target pose information. Most existing PGPIG methods require additional pose information or tasks, limiting their application. In addition, all input information is combined and fed into the network, and CNNs are used as the feature extractor. However, CNNs can only extract features from neighboring pixels and cannot consider the consistency of the entire image. Furthermore, they combine the input information before extracting enough features, making it unclear which task the network should learn, which degrades the network performance. This paper proposes a PGPIG network that addresses the image consistency problem and clarifies which task the network should learn. The proposed method disentangles the PGPIG task into two sub tasks: “rough pose transformation” and “detailed texture generation”. In the former task, low-resolution feature maps are transformed by blocks containing Axial Transformer with a large receptive field. These blocks employ an Encoder-Decoder structure, which allows the network to use the pose information well and improves the stability and performance of the training. The latter task uses a CNN network with Adaptive Instance Normalization. Experiments show that the proposed method has competitive performance with other state-of-the-art methods. Furthermore, despite achieving excellent performance, the proposed network has a significantly fewer parameters than existing methods.
キーワード(和) 深層学習 / 画像処理 / 姿勢変換 / トランスフォーマー / マルチスケール
キーワード(英) Deep learning / Image Processing / Pose Guided Person Image Generation / Transformer / Multi-scale Network
資料番号 PRMU2022-44
発行日 2022-12-08 (PRMU)

研究会情報
研究会 PRMU
開催期間 2022/12/15(から2日開催)
開催地(和) 富山国際会議場
開催地(英) Toyama International Conference Center
テーマ(和) 制御のためのCV
テーマ(英)
委員長氏名(和) 内田 誠一(九大)
委員長氏名(英) Seiichi Uchida(Kyushu Univ.)
副委員長氏名(和) 舩冨 卓哉(奈良先端大) / 安倍 満(デンソーアイティーラボラトリ)
副委員長氏名(英) Takuya Funatomi(NAIST) / Mitsuru Anpai(Denso IT Lab.)
幹事氏名(和) 山口 光太(サイバーエージェント) / 松井 勇佑(東大)
幹事氏名(英) Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo)
幹事補佐氏名(和) 井上 中順(東工大) / 川西 康友(理研)
幹事補佐氏名(英) Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding
本文の言語 JPN
タイトル(和) 姿勢変換のための姿勢知覚トランスフォーマーネットワーク
サブタイトル(和)
タイトル(英) Pose-aware Disentangled Multiscale Transformer for Pose Guided Person Image Generation
サブタイトル(和)
キーワード(1)(和/英) 深層学習 / Deep learning
キーワード(2)(和/英) 画像処理 / Image Processing
キーワード(3)(和/英) 姿勢変換 / Pose Guided Person Image Generation
キーワード(4)(和/英) トランスフォーマー / Transformer
キーワード(5)(和/英) マルチスケール / Multi-scale Network
第 1 著者 氏名(和/英) 柴崎 圭 / Kei Shibasaki
第 1 著者 所属(和/英) 慶應義塾大学(略称:慶大)
Keio University(略称:Keio Univ.)
第 2 著者 氏名(和/英) 池原 雅章 / Masaaki Ikehara
第 2 著者 所属(和/英) 慶應義塾大学(略称:慶大)
Keio University(略称:Keio Univ.)
発表年月日 2022-12-16
資料番号 PRMU2022-44
巻番号(vol) vol.122
号番号(no) PRMU-314
ページ範囲 pp.63-69(PRMU),
ページ数 7
発行日 2022-12-08 (PRMU)