講演名 2004/9/3
PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))(CVのためのパターン認識・学習理論の新展開)
平野 敬, 亀代 泰三, 岡田 康裕, 依田 文夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ここでは多様なファイル形式の文書から、もれなく内容情報を抽出可能な文書解析方式を提案する。この文書解析方式は、文書を疑似的に印刷処理してプリンタが解釈可能なPDLデータを作成し、この内容を解析する。このPDLデータの解析処理では、PDL内部にあるテキストデータを抽出し、イメージデータやベクトルフォントデータを文字認識処理する。これにより電子文書、画像、CAD図面等の多様な文書から情報抽出が可能となる。ここでは本方式の概要と評価結果について述べる。
抄録(英) We propose a document analysis method which extracts text information form various document format files. In this method, a PDL (Page Description Language) data file is generated by doing dummy printing process of a document file. In the PDL data analysis, while extracting the text from inside of the PDL data, character recognition process for images is carried out. It allows text extraction without extraction loss from various document files, such as electronic document, image document, and CAD data. The design of this method is presented and experimental results are discussed.
キーワード(和)
キーワード(英)
資料番号 PRMU2004-66
発行日

研究会情報
研究会 PRMU
開催期間 2004/9/3(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))(CVのためのパターン認識・学習理論の新展開)
サブタイトル(和)
タイトル(英) Information Extraction from Various Document Formats Based on PDL Analysis
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) 平野 敬 / Takashi Hirano
第 1 著者 所属(和/英) 三菱電機株式会社情報技術総合研究所
Mitsubishi Electric Corporation, Information Technology R&D Center
第 2 著者 氏名(和/英) 亀代 泰三 / Taizo Kameshiro
第 2 著者 所属(和/英) 三菱電機株式会社情報技術総合研究所
Mitsubishi Electric Corporation, Information Technology R&D Center
第 3 著者 氏名(和/英) 岡田 康裕 / Yasuhiro Okada
第 3 著者 所属(和/英) 三菱電機株式会社情報技術総合研究所
Mitsubishi Electric Corporation, Information Technology R&D Center
第 4 著者 氏名(和/英) 依田 文夫 / Fumio Yoda
第 4 著者 所属(和/英) 三菱電機株式会社情報技術総合研究所
Mitsubishi Electric Corporation, Information Technology R&D Center
発表年月日 2004/9/3
資料番号 PRMU2004-66
巻番号(vol) vol.104
号番号(no) 290
ページ範囲 pp.-
ページ数 6
発行日