講演抄録/キーワード |
講演名 |
2008-06-20 09:30
文書テンプレート再現のためのPDF文書の構造化 ○藤尾正和・丸川勝美・新庄 広・永崎 健・関 峰伸(日立) DE2008-13 PRMU2008-31 |
抄録 |
(和) |
我々は,文書の構造を理解し,メタ情報を自動的に付与することで,分類,整理,アクセス効率向上を目指した技術開発を進めている.本発表では,メタ情報付与技術の応用例の一つとして,PDF文書中の罫線オブジェクト,テキストオブジェクトの種別に基づき、文書中の固定領域(プレ印刷),変数領域(データ部分)を抽出し,文書のテンプレートを再現する技術について紹介する. |
(英) |
Simultaneous management of information in various paper and electronic documents is a serious problem because the complexity of the document structure would increases greatly. We have developed the system for integrating those information by analyzing layout patterns and text feature collocations in both document formats.
In this paper, we introduce the application for extracting fixed text area and design, and variable text area, to construct reusable document templates. |
キーワード |
(和) |
PDF / 構造化 / 文書再利用 / テンプレート / メタ情報 / 表構造解析 / / |
(英) |
PDF / document structure understanding / document reuse / template / meta data / form structure analysis / / |
文献情報 |
信学技報, vol. 108, no. 94, PRMU2008-31, pp. 71-76, 2008年6月. |
資料番号 |
PRMU2008-31 |
発行日 |
2008-06-12 (DE, PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
DE2008-13 PRMU2008-31 |
|