講演名 2002/3/7
形状特徴併用検索とその並列処理による大量文書検索方式の検討
亀代 泰三, 山岸 義徳, 平野 敬, 岡田 康裕, 依田 文夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) オフィスの情報化の進展に伴い,紙文書を電子化して蓄積・閲覧する要求が高まっている.従来,紙文書の文字認識結果をそのまま全文検索すると,文字切出し・文字認識誤りによる検索もれ・検索ノイズが生じて精度が低下する問題があった.この問題に対処するために,我々は文字認識結果に加えて文字イメージの形状を記述する特徴を併用した文書イメージ検索方式を提案した.本検索方式は精度の高い検索を実現できる反面,複数の認識候補文字と形状特徴を保持するために検索に用いる文書データの容量が増加し,また計算量が多く大量文書に対する検索速度向上が課題となっていた.そこで本稿では本検索方式を並列実行し,効率的に検索処理を実行することで検索速度を向上させる方式を検討した.
抄録(英) Making a large database of electronic documents from paper documents has left a tremendous problem. In order to search the database for an image document, it is necessary for general electronic filing systems to convert the document into texts using OCR. However, the system cannot retrieve documents that do not contain correct character codes. We had before proposed a document retrieval method that reduces false drops and false alarms by using the "shape-feature" technique that describes the outline of the character's shape. We have studied this method for large-scale database by using parallel processing and confirmed its effect.
キーワード(和) 文書画像 / 文字認識 / 全文検索 / 形状特徴 / 並列処理 / スケーラビリティ
キーワード(英) Document Image / Character Recognition / Full-Text Search / Shape Feature / Parallel Processing / scalability
資料番号 NLC2001-96
発行日

研究会情報
研究会 NLC
開催期間 2002/3/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 形状特徴併用検索とその並列処理による大量文書検索方式の検討
サブタイトル(和)
タイトル(英) A Study on Document Retrieval System for Large-Scale Database Based on OCR and Character Shape Information
サブタイトル(和)
キーワード(1)(和/英) 文書画像 / Document Image
キーワード(2)(和/英) 文字認識 / Character Recognition
キーワード(3)(和/英) 全文検索 / Full-Text Search
キーワード(4)(和/英) 形状特徴 / Shape Feature
キーワード(5)(和/英) 並列処理 / Parallel Processing
キーワード(6)(和/英) スケーラビリティ / scalability
第 1 著者 氏名(和/英) 亀代 泰三 / Taizo KAMESHIRO
第 1 著者 所属(和/英) 三菱電機 情報技術総合研究所
Information Technology R&D Center, Mitsubishi Electric Corp.
第 2 著者 氏名(和/英) 山岸 義徳 / Yoshinori YAMAGISHI
第 2 著者 所属(和/英) 三菱電機 情報通信システム開発センター
Information & Communication Systems Development Center, Mitsubishi Electric Corp.
第 3 著者 氏名(和/英) 平野 敬 / Takashi HIRANO
第 3 著者 所属(和/英) 三菱電機 情報技術総合研究所
Information Technology R&D Center, Mitsubishi Electric Corp.
第 4 著者 氏名(和/英) 岡田 康裕 / Yasuhiro OKADA
第 4 著者 所属(和/英) 三菱電機 情報技術総合研究所
Information Technology R&D Center, Mitsubishi Electric Corp.
第 5 著者 氏名(和/英) 依田 文夫 / Fumio YODA
第 5 著者 所属(和/英) 三菱電機 情報技術総合研究所
Information Technology R&D Center, Mitsubishi Electric Corp.
発表年月日 2002/3/7
資料番号 NLC2001-96
巻番号(vol) vol.101
号番号(no) 711
ページ範囲 pp.-
ページ数 8
発行日