講演名 | 2003/3/6 XMLに基づく対話型文書の構造記述とグラフ文法を用いた罫線文書の構造解析 天野 晃, 浅田 尚紀, 鈴木 弘二, 内田 智之, 宮原 哲浩, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 履歴書や研究計画書など多数の罫線による枠で構成された文書(罫線文書)を扱う機会は多く,e-Japan構想などに伴ってこれらの文書の電子化は急速に進んでいる.しかしながら,現在流通している電子文書のフォーマットには構造情報が欠けているため,これらの文書に関する処理である,文書生成,修正,記入,読み取りなどの各作業を自動化することは困難である.そこで,本研究では,罫線文書に代表される,記入者が情報を記入する文書(対話型文書)を対象に,XML表記に基づく文書の構造とレイアウト情報を記述する表記法を提案し,更に既存印刷文書及び電子文書から構造情報を抽出する,グラフ文法を用いた罫線文書の構造解析手法について述べる. |
抄録(英) | Structure analysis of table form document is important because both printed and electronical documents only provide geometrical layout and lexical information explicitly. To handle these documents automatically, logical structure information is necessary. In this paper, we first propose a general representation of table form document based on XML, which contains both structure and layout information. Next, we present structure analysis system based on graph grammar which represents document structure knowledge. As the relation between adjacent fields in table form documents become two dimensional, two dimensional notation is necessary to denote structural knowledge. Therefore, we adopt two dimensional graph grammar to denote them. By using grammar notation, we can easily modify and keep consistency of it, as the rules are relatively simple. Another advantage of using grammar notation is that, it can be used for generating documents only from logical structure. Experimental results have shown that the system successfully analyzed several kinds of table forms. |
キーワード(和) | 罫線文書画像 / 文書構造解析 / 表構造 / 書式構造文法 / 文書作成支援 / グラフ文法 |
キーワード(英) | Ruled Form Document / Document Structure Analysis / Table Form / Document Structure Grammer / Document Generation Support |
資料番号 | PRMU2002-229 |
発行日 |
研究会情報 | |
研究会 | PRMU |
---|---|
開催期間 | 2003/3/6(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Pattern Recognition and Media Understanding (PRMU) |
---|---|
本文の言語 | JPN |
タイトル(和) | XMLに基づく対話型文書の構造記述とグラフ文法を用いた罫線文書の構造解析 |
サブタイトル(和) | |
タイトル(英) | Graph Grammar Based Analysis System of Complex Table Form Document and its Representation based on XML |
サブタイトル(和) | |
キーワード(1)(和/英) | 罫線文書画像 / Ruled Form Document |
キーワード(2)(和/英) | 文書構造解析 / Document Structure Analysis |
キーワード(3)(和/英) | 表構造 / Table Form |
キーワード(4)(和/英) | 書式構造文法 / Document Structure Grammer |
キーワード(5)(和/英) | 文書作成支援 / Document Generation Support |
キーワード(6)(和/英) | グラフ文法 |
第 1 著者 氏名(和/英) | 天野 晃 / Akira AMANO |
第 1 著者 所属(和/英) | 京都大学大学院情報学研究科 Graduate School of Informatics, Kyoto University |
第 2 著者 氏名(和/英) | 浅田 尚紀 / Naoki ASADA |
第 2 著者 所属(和/英) | 広島市立大学情報科学部 Faculty of Information Sciences, Hiroshima City University |
第 3 著者 氏名(和/英) | 鈴木 弘二 / Koji SUZUKI |
第 3 著者 所属(和/英) | 広島市立大学情報科学部 Faculty of Information Sciences, Hiroshima City University |
第 4 著者 氏名(和/英) | 内田 智之 / Tomoyuki UCHIDA |
第 4 著者 所属(和/英) | 広島市立大学情報科学部 Faculty of Information Sciences, Hiroshima City University |
第 5 著者 氏名(和/英) | 宮原 哲浩 / Tetsuhiro MIYAHARA |
第 5 著者 所属(和/英) | 広島市立大学情報科学部 Faculty of Information Sciences, Hiroshima City University |
発表年月日 | 2003/3/6 |
資料番号 | PRMU2002-229 |
巻番号(vol) | vol.102 |
号番号(no) | 707 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |