講演名 2003/3/6
XMLに基づく対話型文書の構造記述とグラフ文法を用いた罫線文書の構造解析
天野 晃, 浅田 尚紀, 鈴木 弘二, 内田 智之, 宮原 哲浩,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 履歴書や研究計画書など多数の罫線による枠で構成された文書(罫線文書)を扱う機会は多く,e-Japan構想などに伴ってこれらの文書の電子化は急速に進んでいる.しかしながら,現在流通している電子文書のフォーマットには構造情報が欠けているため,これらの文書に関する処理である,文書生成,修正,記入,読み取りなどの各作業を自動化することは困難である.そこで,本研究では,罫線文書に代表される,記入者が情報を記入する文書(対話型文書)を対象に,XML表記に基づく文書の構造とレイアウト情報を記述する表記法を提案し,更に既存印刷文書及び電子文書から構造情報を抽出する,グラフ文法を用いた罫線文書の構造解析手法について述べる.
抄録(英) Structure analysis of table form document is important because both printed and electronical documents only provide geometrical layout and lexical information explicitly. To handle these documents automatically, logical structure information is necessary. In this paper, we first propose a general representation of table form document based on XML, which contains both structure and layout information. Next, we present structure analysis system based on graph grammar which represents document structure knowledge. As the relation between adjacent fields in table form documents become two dimensional, two dimensional notation is necessary to denote structural knowledge. Therefore, we adopt two dimensional graph grammar to denote them. By using grammar notation, we can easily modify and keep consistency of it, as the rules are relatively simple. Another advantage of using grammar notation is that, it can be used for generating documents only from logical structure. Experimental results have shown that the system successfully analyzed several kinds of table forms.
キーワード(和) 罫線文書画像 / 文書構造解析 / 表構造 / 書式構造文法 / 文書作成支援 / グラフ文法
キーワード(英) Ruled Form Document / Document Structure Analysis / Table Form / Document Structure Grammer / Document Generation Support
資料番号 PRMU2002-229
発行日

研究会情報
研究会 PRMU
開催期間 2003/3/6(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) XMLに基づく対話型文書の構造記述とグラフ文法を用いた罫線文書の構造解析
サブタイトル(和)
タイトル(英) Graph Grammar Based Analysis System of Complex Table Form Document and its Representation based on XML
サブタイトル(和)
キーワード(1)(和/英) 罫線文書画像 / Ruled Form Document
キーワード(2)(和/英) 文書構造解析 / Document Structure Analysis
キーワード(3)(和/英) 表構造 / Table Form
キーワード(4)(和/英) 書式構造文法 / Document Structure Grammer
キーワード(5)(和/英) 文書作成支援 / Document Generation Support
キーワード(6)(和/英) グラフ文法
第 1 著者 氏名(和/英) 天野 晃 / Akira AMANO
第 1 著者 所属(和/英) 京都大学大学院情報学研究科
Graduate School of Informatics, Kyoto University
第 2 著者 氏名(和/英) 浅田 尚紀 / Naoki ASADA
第 2 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 3 著者 氏名(和/英) 鈴木 弘二 / Koji SUZUKI
第 3 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 4 著者 氏名(和/英) 内田 智之 / Tomoyuki UCHIDA
第 4 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 5 著者 氏名(和/英) 宮原 哲浩 / Tetsuhiro MIYAHARA
第 5 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
発表年月日 2003/3/6
資料番号 PRMU2002-229
巻番号(vol) vol.102
号番号(no) 707
ページ範囲 pp.-
ページ数 6
発行日