講演名 2004/2/12
OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
永崎 健, 丸川 勝美,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 電子文書に関する法制度の整備に伴い,紙文書を電子イメージ化した文書画像に対して保存・閲覧・検索ができる文書処理システムヘの要求が高まっている.しかし,従来のようにOCRを利用して文書画像検索を行うと,文字切出し・文字認識誤りに起因する検索漏れ・検索誤りにより精度が低下する問題がある.この問題に対して,我々はOCRの出力を多重仮説化することを骨子とする文書画像検索方式を提案する.本方式は,1)OCRの出力形態を切出・文字認識誤りを許容した読取仮説へと拡張し,2)文法駆動型DPを用いて誤切出・誤不読にロバストなキーワード抽出を行い,3)文字配置の検定を行うことで検索誤りを低減することを特徴とする.手書き,活字が混在する文書画像を対象とした検索実験により本方式の有効性を確認した.
抄録(英) This paper describes a new method for document retrieval which is tolerant of segmentation errors of OCR on document images. OCR-based document retrieval systems suffer from segmentation and recognition errors. The proposed method consists of two phases of image processing to overcome these problems. First, the OCR engine outputs the multiple hypotheses of character segmentation and recognition. Second, the retrieval engine extracts several keywords from the hypotheses using lexicon driven DP-matching. We have applied this method to handwritten and printed document images, and demonstrated its effectiveness in reducing false drops and false alarms of retrieval.
キーワード(和) 文字切出誤り / OCR / 文書検索 / 文法駆動型DP
キーワード(英) Segmentation Error / OCR / Document Retrieval / Lexicon Driven Dynamic Programming
資料番号 TL2003-29,PRMU2003-215
発行日

研究会情報
研究会 TL
開催期間 2004/2/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Thought and Language (TL)
本文の言語 JPN
タイトル(和) OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
サブタイトル(和)
タイトル(英) Development of Document Retrieval System Tolerant of Segmentation Errors of Document Images (Thought and Language)
サブタイトル(和)
キーワード(1)(和/英) 文字切出誤り / Segmentation Error
キーワード(2)(和/英) OCR / OCR
キーワード(3)(和/英) 文書検索 / Document Retrieval
キーワード(4)(和/英) 文法駆動型DP / Lexicon Driven Dynamic Programming
第 1 著者 氏名(和/英) 永崎 健 / Takeshi NAGASAKI
第 1 著者 所属(和/英) 株式会社日立製作所中央研究所
Hitachi, Ltd., Central Research Laboratory
第 2 著者 氏名(和/英) 丸川 勝美 / Katsumi MARUKAWA
第 2 著者 所属(和/英) 株式会社日立製作所中央研究所
Hitachi, Ltd., Central Research Laboratory
発表年月日 2004/2/12
資料番号 TL2003-29,PRMU2003-215
巻番号(vol) vol.103
号番号(no) 656
ページ範囲 pp.-
ページ数 6
発行日