講演名 2007-03-15
テクスチャ領域を含む帳票画像からの罫線抽出(テーマセッション2(文字画像処理1),文字・文書の認識・理解)
田中 宏, 中島 健次, 武部 浩明, 藤本 克仁,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 帳票画像から様々な種類の罫線を抽出する方式について述べる。近年の帳票OCRはより多彩なデザインの帳票を認識対象としており、帳票画像から罫線を抽出する技術は、実線罫線だけでなく色や模様の領域境界による罫線(境界罫線)など様々な種類の罫線を扱う必要がある。中でも一様な模様領域(テクスチャ領域)の境界を罫線として抽出する技術は帳票画像の多様化における新たな課題である。テクスチャ境界も含む様々な罫線を抽出するため、我々はラン線分抽出とエッジ線分抽出を併用した罫線抽出方式を開発した。また罫線の種類の増加により表中の文字からの罫線誤抽出がより深刻な問題となるため、文字からの誤抽出を抑制する技術も開発した。本稿では、まず2種の線分抽出によって罫線の候補を求め、各罫線候補の種類や属性を局所的な画像情報により判定する罫線抽出技術について述べる。続いて文字からの誤抽出を防ぐため、前処理で文字画像を消去する技術と、後処理で罫線ノイズを除去する技術について述べる。最後にそれぞれの開発技術について人工画像と実帳票画像を用いた評価を行い、本方式の効果と課題にっいて考察する。
抄録(英) This paper describes a ruled line extraction method for form documents which contain various types of ruled lines including texture boundary lines. As the recent form recognition applications are required to deal with various styles of form images, it should recognize many types of ruled lines which include lines formed by texture boundaries, that have not been considered as a target to be extracted as ruled lines. We have developed a ruled line extraction method which employs two types of feature extraction techniques, run-length and edge detection. We also have implemented a noise supression techniques mainly forcusing on reduction of mis-extracted lines taken from letter images. The details of our method and performance evaluation results are discussed in this paper.
キーワード(和) 帳票認識 / OCR / 罫線 / ラン / エッジ / 領域境界 / テクスチャ / 局所画像 / 文字消去
キーワード(英) form recognition / OCR / texture border / ruled line / edge feature
資料番号 PRMU2006-246
発行日

研究会情報
研究会 PRMU
開催期間 2007/3/8(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) テクスチャ領域を含む帳票画像からの罫線抽出(テーマセッション2(文字画像処理1),文字・文書の認識・理解)
サブタイトル(和)
タイトル(英) A Ruled Line Extraction Method for Form Images Containing Texture Areas
サブタイトル(和)
キーワード(1)(和/英) 帳票認識 / form recognition
キーワード(2)(和/英) OCR / OCR
キーワード(3)(和/英) 罫線 / texture border
キーワード(4)(和/英) ラン / ruled line
キーワード(5)(和/英) エッジ / edge feature
キーワード(6)(和/英) 領域境界
キーワード(7)(和/英) テクスチャ
キーワード(8)(和/英) 局所画像
キーワード(9)(和/英) 文字消去
第 1 著者 氏名(和/英) 田中 宏 / Hiroshi Tanaka
第 1 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 2 著者 氏名(和/英) 中島 健次 / Kenji Nakajima
第 2 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 3 著者 氏名(和/英) 武部 浩明 / Hiroaki Takebe
第 3 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 4 著者 氏名(和/英) 藤本 克仁 / Katsuhito Fujimoto
第 4 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
発表年月日 2007-03-15
資料番号 PRMU2006-246
巻番号(vol) vol.106
号番号(no) 605
ページ範囲 pp.-
ページ数 6
発行日