潜在拡散モデルを用いた文書画像の歪み補正と再照明

今林 颯大; ハオ グオチン; 飯塚 里志; 福井 和広

講演名	2023-11-17 潜在拡散モデルを用いた文書画像の歪み補正と再照明今林颯大(筑波大), ハオグオチン(筑波大), 飯塚里志(筑波大), 福井和広(筑波大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究では，潜在拡散モデルを用いて文書画像の歪み補正と再照明を行い，その視認性を向上させる手法を提案する. 文書画像は撮影条件によって折り目や傾きといった歪みや，影が写り込む場合がある．これらの歪みや影は，視認性の低下やOCR(Optical Character Recognition) において大きな問題となる可能性がある．近年では，畳み込みニューラルネットワークを用いて歪み補正や再照明を行う手法が提案されているが，幾何変形を伴う画像変換を扱うのは難しく，複雑な歪みの補正や高精度の再照明は未だに困難である．本研究では，これらの問題を解決するために潜在拡散モデルを用いた，文書画像の歪み補正と再照明を行う手法を提案する．提案手法では，歪みや影を含んだ劣化画像をピクセル空間から潜在空間へ変換し，ガウシアンノイズと連結させる．その後，ノイズ除去ネットワークによりノイズを取り除く処理を繰り返すことで，完全にノイズを除去した潜在表現を生成する．最後に，生成された潜在表現をピクセル空間に変換し，歪み補正と再照明を行った出力画像を得る．拡散モデルは生成品質が高く，最尤推定によって学習するため多様なデータの生成が可能であり，かつ安定して学習させることができる．また，部分情報から残りを復元することや，条件付きで生成を制御することもできるため，劣化画像を条件として歪み補正と再照明を行った画像の生成が可能となる．この手法により，実際の文書画像の多様な場面においても高品質な結果を実現し，幅広い応用可能性を持つことが期待される．
抄録(英)	This study proposes a method to improve the visibility of document images by correcting distortions and re-illuminating them using a latent diffusion model. Document images often suffer from folds, tilt, and shadows. Such distortions and shadows significantly diminish image visibility, posing a challenge for optical character recognition (OCR) tasks. Recent methods using convolutional neural networks have attempted to correct distortions and re-illuminate, but image transformations involving geometric deformations are difficult, and it is still difficult to correct distortions and re-illuminate with high accuracy. In this study, we propose a method for correcting distortion and re-illumination of document images using a latent diffusion model to solve these problems. In the proposed method, a degraded image containing distortions and shadows is transformed from pixel space to latent space and concatenated with Gaussian noise. Then, the process of removing the noise is repeated by a denoising network to generate a latent representation with completely removed noise. Finally, the generated latent representation is converted to pixel space, and the output image is obtained after distortion correction and re-illumination. The diffusion model has high generative capacity and is trained by maximum likelihood estimation, allowing for the generation of a wide variety of data and stable training. It can also recover the remainder from partial information and conditionally control the generation, making it possible to generate images with distortion correction and re-illumination conditional on a degraded image. This method is expected to achieve high-quality results in a wide variety of real-world document images, and has a wide range of potential applications.
キーワード(和)	文書画像 / 歪み補正 / 再照明 / 潜在拡散モデル
キーワード(英)	Document images / Geometric unwarping / Illumination correction / Latent diffusion model
資料番号	PRMU2023-36
発行日	2023-11-09 (PRMU)

研究会情報
研究会	PRMU / IPSJ-CVIM / IPSJ-DCC / IPSJ-CGVI
開催期間	2023/11/16(から2日開催)
開催地（和）	鳥取県立生涯学習センター（県民ふれあい会館）
開催地（英）
テーマ（和）	人を表現・理解するためのCG/DCC/CV/PR技術
テーマ（英）
委員長氏名（和）	柏野邦夫(NTT)
委員長氏名（英）	Kunio Kashio(NTT)
副委員長氏名（和）	舩冨卓哉(奈良先端大) / 入江豪(東京理科大)
副委員長氏名（英）	Takuya Funatomi(NAIST) / Go Irie(Tokyo Univ. of Science)
幹事氏名（和）	井上中順(東工大) / 川西康友(理研)
幹事氏名（英）	Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken)
幹事補佐氏名（和）	下西慶(京大) / 原健翔(産総研)
幹事補佐氏名（英）	Kei Shimonishi(Kyoto Univ.) / Kensho Hara(AIST)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media / Special Interest Group on Digital Contents Creation / Special Interest Group on Computer Graphics and Visual Informatics
本文の言語	JPN
タイトル（和）	潜在拡散モデルを用いた文書画像の歪み補正と再照明
サブタイトル（和）
タイトル（英）	Diffusion-based Geometric Unwarping and Illumination Correction for Document Images
サブタイトル（和）
キーワード(1)（和/英）	文書画像 / Document images
キーワード(2)（和/英）	歪み補正 / Geometric unwarping
キーワード(3)（和/英）	再照明 / Illumination correction
キーワード(4)（和/英）	潜在拡散モデル / Latent diffusion model
第 1 著者氏名（和/英）	今林颯大 / Sota Imahayashi
第 1 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. of Tsukuba)
第 2 著者氏名（和/英）	ハオグオチン / Guoqing Hao
第 2 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. of Tsukuba)
第 3 著者氏名（和/英）	飯塚里志 / Satoshi Iizuka
第 3 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. of Tsukuba)
第 4 著者氏名（和/英）	福井和広 / Kazuhiro Fukui
第 4 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. of Tsukuba)
発表年月日	2023-11-17
資料番号	PRMU2023-36
巻番号（vol）	vol.123
号番号（no）	PRMU-266
ページ範囲	pp.113-118(PRMU),
ページ数	6
発行日	2023-11-09 (PRMU)