講演名 2011-03-10
二値化閾値の補正による低解像度画像に頑強な文字抽出用二値化(テーマセッション,文字・文書の認識と理解)
田中 宏, 藤井 勇作, 堀田 悦伸,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 多値文書画像から,文字の二値画像を解像度に寄らずに高精度に抽出する二値化方式を提案する.文字抽出用二値化は,入力画像から文字の近傍領域を抽出し,文字近傍ごとに文字画素と背景を分離する.既開発の方式では近傍内の二値化にNiblack二値化を用いており,低解像度画像で細い線が途切れるという問題があった.提案方式では,二値化閾値を後処理で補正して画素の脱落を抑制する.更に,高解像度画像では大津二値化を併用することで更に高精度な二値化が実現できる.150~600dpiの各解像度の画像で文字認識評価実験を行い,本方式の有効性を確認した.
抄録(英) We propose a text image binarization method which is robust for image resolution. Common text binarization method has two steps, text region extraction step and regional binarization step. Because our system uses Niblack binarization for the second step, it may cause problems such that pixels of narrow strokes are dropped off in low resolution images. We adopt a threshold correction method which can restore dropped pixels and improve the quality of text binary images. Evaluation results of character recognition using 150-600 dpi images show the effectiveness of our method.
キーワード(和) 二値化 / 閾値 / OCR / 文書画像 / 文字認識 / 解像度
キーワード(英) Binarization / Threshold / OCR / Document Image / Character Recognition / Image Resolution
資料番号 PRMU2010-254
発行日

研究会情報
研究会 PRMU
開催期間 2011/3/3(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 二値化閾値の補正による低解像度画像に頑強な文字抽出用二値化(テーマセッション,文字・文書の認識と理解)
サブタイトル(和)
タイトル(英) Document Image Binarization to Extract Text Patterns from Low Resolution Color Images
サブタイトル(和)
キーワード(1)(和/英) 二値化 / Binarization
キーワード(2)(和/英) 閾値 / Threshold
キーワード(3)(和/英) OCR / OCR
キーワード(4)(和/英) 文書画像 / Document Image
キーワード(5)(和/英) 文字認識 / Character Recognition
キーワード(6)(和/英) 解像度 / Image Resolution
第 1 著者 氏名(和/英) 田中 宏 / Hiroshi Tanaka
第 1 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 2 著者 氏名(和/英) 藤井 勇作 / Yusaku Fujii
第 2 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 3 著者 氏名(和/英) 堀田 悦伸 / Yoshinobu Hotta
第 3 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
発表年月日 2011-03-10
資料番号 PRMU2010-254
巻番号(vol) vol.110
号番号(no) 467
ページ範囲 pp.-
ページ数 6
発行日