講演名 2006-02-23
寸法不変な特徴量を用いた帳票レイアウト解析(テーマセッション,文字認識・文書理解)
鈴木 智久, 宇田 明弘, 水谷 博之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 帳票画像の文字認識においては、枠検出により認識対象領域の位置を特定する必要がある。その際には紙面上の固定座標を用いる場合が多い。しかし、非OCR帳票の一部には枠の寸法が厳密に定義されていないため、固定座標による枠検出が困難なものがある。本稿では、枠の構造的な特徴量に基づいたテンプレートマッチングを行い、枠を検出する手法を提案する。本手法により、寸法の変動に対して頑健な枠検出が可能である。実験ではテスト帳票200枚の90%から正しく枠を検出できた。
抄録(英) One of the important requirements of the character recognition for printed forms is to find locations of fields to be recognized. In the most conventional method designed for OCR sheets reading, these fields are located by predefined coordinates. Nevertheless, this conventional method is not appropriate for non-OCR sheets, due to inexact format designs. In this paper, we introduce a new algorithm suitable for non-OCR forms. We exploit structural features of printed form for this purpose. A dynamic programming technique is adopted for form and template matching with cost function defined as difference of structural feature vectors. The experiments show 90% correct results in locating process for field extraction with 200 test sheets.
キーワード(和) 帳票 / レイアウト / 寸法
キーワード(英) Form / Layout / Size
資料番号 TL2005-49,PRMU2005-184
発行日

研究会情報
研究会 PRMU
開催期間 2006/2/16(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 寸法不変な特徴量を用いた帳票レイアウト解析(テーマセッション,文字認識・文書理解)
サブタイトル(和)
タイトル(英) Form Layout Analysis Based on Size Invariant Features
サブタイトル(和)
キーワード(1)(和/英) 帳票 / Form
キーワード(2)(和/英) レイアウト / Layout
キーワード(3)(和/英) 寸法 / Size
第 1 著者 氏名(和/英) 鈴木 智久 / Tomohisa SUZUKI
第 1 著者 所属(和/英) 東芝ソリューション株式会社
Toshiba Solutions Corporation
第 2 著者 氏名(和/英) 宇田 明弘 / Akihiro UDA
第 2 著者 所属(和/英) 東芝ソリューション株式会社
Toshiba Solutions Corporation
第 3 著者 氏名(和/英) 水谷 博之 / Hiroyuki MIZUTANI
第 3 著者 所属(和/英) 東芝ソリューション株式会社
Toshiba Solutions Corporation
発表年月日 2006-02-23
資料番号 TL2005-49,PRMU2005-184
巻番号(vol) vol.105
号番号(no) 614
ページ範囲 pp.-
ページ数 6
発行日