講演名 2006-02-23
複数セル候補の組み合わせ探索に基づく帳票画像からのセル抽出(テーマセッション,文字認識・文書理解)
田中 宏, 武部 浩明, 藤本 克仁,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 未知フォーマットの帳票画像から表を構成するセル領域を抽出する方式を提案する。本方式では表罫線が交差する交点の情報を用いてセル領域の候補を複数抽出し、組み合わせ探索によって最適なセル集合を求める。交点情報を用いて帳票を認識する手法は過去にも見られるが、その多くはフォーマット情報を用いた帳票照合に適用されたものであり、未知帳票の認識に用いるためには交点情報の誤りに頑強な方式が求められる。我々は曖昧な交点には複数の候補を用意し、複数のセル候補を生成することによって交点誤りの影響の低減を目指した。本稿では交点情報に基づくセル候補の生成方法と、最適なセル集合を求める組み合わせ探索アルゴリズムについて述べる。また本方式の効果と課題についても考察する。
抄録(英) This paper describes a cell extraction method for form documents base on combinatorial optimization of cell candidates using intersection features such as position, shape and accuracy. Although there has been several methods employing intersection features to analyze form documents, most of them are applied to form identification using form structure templates. Compared with form identification, form recognition without templates requires more accurate information of intersection features. To make up for incorrectness of the features, our system creates possible candidates of intersections and extracts several cells for each positions in the form document, and then makes an appropreate set of cells reffering to the possible cell candidates based on an optimization algorithm of cell combination.
キーワード(和) 帳票認識 / OCR / セル抽出 / 罫線 / 交点情報 / 組み合わせ探索 / 動的計画法 / 分枝限定法
キーワード(英) form recognition / cell extraction / OCR / intersection feature / ruled line
資料番号 TL2005-50,PRMU2005-185
発行日

研究会情報
研究会 PRMU
開催期間 2006/2/16(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 複数セル候補の組み合わせ探索に基づく帳票画像からのセル抽出(テーマセッション,文字認識・文書理解)
サブタイトル(和)
タイトル(英) A Cell Extraction Method for Form Documents based on Combinatorial Optimization
サブタイトル(和)
キーワード(1)(和/英) 帳票認識 / form recognition
キーワード(2)(和/英) OCR / cell extraction
キーワード(3)(和/英) セル抽出 / OCR
キーワード(4)(和/英) 罫線 / intersection feature
キーワード(5)(和/英) 交点情報 / ruled line
キーワード(6)(和/英) 組み合わせ探索
キーワード(7)(和/英) 動的計画法
キーワード(8)(和/英) 分枝限定法
第 1 著者 氏名(和/英) 田中 宏 / Hiroshi Tanaka
第 1 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 2 著者 氏名(和/英) 武部 浩明 / Hiroaki Takebe
第 2 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
第 3 著者 氏名(和/英) 藤本 克仁 / Katsuhito Fujimoto
第 3 著者 所属(和/英) (株)富士通研究所
Fujitsu Laboratories Ltd.
発表年月日 2006-02-23
資料番号 TL2005-50,PRMU2005-185
巻番号(vol) vol.105
号番号(no) 614
ページ範囲 pp.-
ページ数 6
発行日