講演抄録/キーワード |
講演名 |
2007-03-15 15:45
テクスチャ領域を含む帳票画像からの罫線抽出 ○田中 宏・中島健次・武部浩明・藤本克仁(富士通研) |
抄録 |
(和) |
帳票画像から様々な種類の罫線を抽出する方式について述べる。近年の帳票OCRはより多彩なデザインの帳票を認識対象としており、帳票画像から罫線を抽出する技術は、実線罫線だけでなく色や模様の領域境界による罫線(境界罫線)など様々な種類の罫線を扱う必要がある。中でも一様な模様領域(テクスチャ領域)の境界を罫線として抽出する技術は帳票画像の多様化における新たな課題である。テクスチャ境界も含む様々な罫線を抽出するため、我々はラン線分抽出とエッジ線分抽出を併用した罫線抽出方式を開発した。また罫線の種類の増加により表中の文字からの罫線誤抽出がより深刻な問題となるため、文字からの誤抽出を抑制する技術も開発した。本稿では、まず2種の線分抽出によって罫線の候補を求め、各罫線候補の種類や属性を局所的な画像情報により判定する罫線抽出技術について述べる。続いて文字からの誤抽出を防ぐため、前処理で文字画像を消去する技術と、後処理で罫線ノイズを除去する技術について述べる。最後にそれぞれの開発技術について人工画像と実帳票画像を用いた評価を行い、本方式の効果と課題について考察する。 |
(英) |
This paper describes a ruled line extraction method for form documents which contain various types of ruled lines including texture boundary lines. As the recent form recognition applications are required to deal with various styles of form images, it should recognize many types of ruled lines which include lines formed by texture boundaries, that have not been considered as a target to be extracted as ruled lines. We have developed a ruled line extraction method which employs two types of feature extraction techniques, run-length and edge detection. We also have implemented a noise supression techniques mainly forcusing on reduction of mis-extracted lines taken from letter images. The details of our method and performance evaluation results are discussed in this paper. |
キーワード |
(和) |
帳票認識 / OCR / 罫線 / ラン / エッジ / 領域境界 / テクスチャ / 文字消去 |
(英) |
form recognition / OCR / texture border / ruled line / edge / / / |
文献情報 |
信学技報, vol. 106, no. 605, PRMU2006-246, pp. 67-72, 2007年3月. |
資料番号 |
PRMU2006-246 |
発行日 |
2007-03-08 (PRMU) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|