講演名 2023-05-18
知覚的品質向上のための拡散モデルを用いた画像調和
成木 太音(豊田工大), 浮田 宗伯(豊田工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 画像調和は、画像を合成した際に発生する色味の違和感を解消するタスクである。しかし、従来の画像調和データセットでは、違和感という知覚的な側面を考慮することができておらず、GTとの差分のみでモデルを学習・評価していた。このため、生成画像が違和感の無いものだったとしても、GTとの差分が大きければ、学習不十分な画像として扱われてしまっていた。ここで、近年注目を集める生成モデルに拡散モデルがある。拡散モデルは、ノイズ画像から複数回のステップに渡って徐々にノイズを取り除いていき画像を生成するモデルであり、この徐々に復元していく生成過程と安定的な目的関数により、他の生成モデルに比べて生成画像の品質と多様性が高いことで知られている。また、DPSという手法では拡散モデルに逆問題を応用することで、所定の条件を満たすような画像をゼロショットで復元することができる。提案手法では、DPSにおいて画像勾配とVGG特徴量による制約を掛けて画像を生成することで、前景のテクスチャを保持しつつ品質の高い画像調和を行う。さらに、リバースプロセスの各ステップに置いて制約を徐々に大きくすることで、より安定的な復元を実現する。
抄録(英) Image harmonization is the task of eliminating the discomfort of color tones that occurs when images are composited. However, conventional image harmonization datasets were not able to take into account the perceptual aspect of discomfort, and models were learned and evaluated only by the difference from the GT. For this reason, even if the generated image was not uncomfortable, if the difference from the GT was large, it was treated as an insufficiently trained image. Recently, the diffusion model has been attracting attention. The diffusion model generates images by gradually removing noise from a noisy image over multiple steps, and is known for its higher quality and diversity of generated images compared to other generative models due to this gradually restoring generative process and stable objective function. In addition, the method called DPS applies an inverse problem to the diffusion model to restore an image in zero shots such that it satisfies a given condition. In the proposed method, the image is generated by applying constraints based on image gradients and VGG features in DPS, which results in image harmonization with high quality while preserving foreground textures. Furthermore, by gradually increasing the constraints at each step of the reverse process, the restoration is performed with higher perceptual quality.
キーワード(和) 画像調和 / 拡散モデル / 逆問題
キーワード(英) Image harmonization / Diffusion model / Inverse problem
資料番号 PRMU2023-1
発行日 2023-05-11 (PRMU)

研究会情報
研究会 PRMU / IPSJ-CVIM
開催期間 2023/5/18(から2日開催)
開催地(和) 名古屋工業大学
開催地(英)
テーマ(和) NeRF等のニューラルシーン表現
テーマ(英)
委員長氏名(和) 内田 誠一(九大)
委員長氏名(英) Seiichi Uchida(Kyushu Univ.)
副委員長氏名(和) 舩冨 卓哉(奈良先端大) / 安倍 満(デンソーアイティーラボラトリ)
副委員長氏名(英) Takuya Funatomi(NAIST) / Mitsuru Anpai(Denso IT Lab.)
幹事氏名(和) 山口 光太(サイバーエージェント) / 松井 勇佑(東大)
幹事氏名(英) Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo)
幹事補佐氏名(和) 井上 中順(東工大) / 川西 康友(理研)
幹事補佐氏名(英) Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media
本文の言語 JPN
タイトル(和) 知覚的品質向上のための拡散モデルを用いた画像調和
サブタイトル(和)
タイトル(英) Image Harmonization Using Diffusion Model for Perceptual Quality Improvement
サブタイトル(和)
キーワード(1)(和/英) 画像調和 / Image harmonization
キーワード(2)(和/英) 拡散モデル / Diffusion model
キーワード(3)(和/英) 逆問題 / Inverse problem
第 1 著者 氏名(和/英) 成木 太音 / Taito Naruki
第 1 著者 所属(和/英) 豊田工業大学(略称:豊田工大)
Toyota Technological Institute(略称:TTI)
第 2 著者 氏名(和/英) 浮田 宗伯 / Norimichi Ukita
第 2 著者 所属(和/英) 豊田工業大学(略称:豊田工大)
Toyota Technological Institute(略称:TTI)
発表年月日 2023-05-18
資料番号 PRMU2023-1
巻番号(vol) vol.123
号番号(no) PRMU-30
ページ範囲 pp.1-5(PRMU),
ページ数 5
発行日 2023-05-11 (PRMU)