講演抄録/キーワード |
講演名 |
2008-02-21 11:00
二値化閾値の補正と罫線形状判定による罫線抽出の高精度化 ○田中 宏・藤井勇作・武部浩明・藤本克仁(富士通研) PRMU2007-216 |
抄録 |
(和) |
帳票画像から様々な種類の罫線を高精度に抽出する方式について述べる。近年の帳票OCRは、デジタルカメラの普及などに伴う帳票画像の多様化に対応するため、様々な帳票書式や画質に対しても高い帳票認識精度が求められている。我々は既に複雑な表構造に対応したセル抽出方式や、テクスチャ境界を含む帳票画像からの罫線抽出方式を開発してきたが、ノイズの重畳や画質劣化に対してもロバストな精度を実現するためには更なる改善が必要である。表認識誤りの大半を占める罫線抽出誤りは脱落誤りと付加誤りとに分類できるが、今回、それぞれの主な原因である罫線途切れと文字列からの罫線誤抽出を改善する技術を開発した。本稿では、先ず抽出したい罫線の条件を定義し、その条件を満たす罫線を抽出するために我々が採用したアプローチについて説明する。続いて罫線途切れを解消するための二値化閾値の補正について述べる。次に、先に定義した抽出罫線の条件を用いて罫線の形状を判定し、付加誤りを抑制する方法について述べる。最後にサンプル帳票画像を用いた評価を行い、本方式の効果と課題について考察する。 |
(英) |
This paper describes enhancements of the ruled line extraction method using threshold correction and linearity evaluation. Recent form recognition applications are required to achieve high accuracy even with various styles of form images being much degraded. To meet the high-level demand, we have developed several methods which can suppress mis-recognition cases caused by failed or over extracted ruled lines. The proposed methods include correcting binarization thresholds and evaluating linearity of ruled lines. These methods are considered as an implementation of the ruled line model described briefly in the beginning of this paper. Details of our methods, performance evaluation results and discussions are presented. |
キーワード |
(和) |
帳票認識 / OCR / 罫線 / Niblack / 二値化 / 閾値 / / |
(英) |
Form Recognition / OCR / Ruled Line / Niblack / Binarization / Threshold / / |
文献情報 |
信学技報, vol. 107, no. 491, PRMU2007-216, pp. 13-18, 2008年2月. |
資料番号 |
PRMU2007-216 |
発行日 |
2008-02-14 (PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2007-216 |