講演名 2004/2/13
数学文書データベースの解析(文字とドキュメントの認識・理解)
内田 誠一, 野村 明弘, 鈴木 昌和,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 数式を含んだ文書のための実用的なOCRの実現のために,数学文書を幾つかの観点から解析する.具体的には,67万文字からなる正解付き数学文書データベースを準備し,(i)文字カテゴリ数,(ii)接触文字や分離文字などの異常文字数,(iii)文字サイズの変動量,(iv)数式の複雑さ,の4点を中心として定量的に解析する.解析を通して,数学文書を認識する際の困難性が数値として明らかにする.また,そうした問題点に対する解決策についても触れる.
抄録(英) Mathematical documents are analyzed from several viewpoints to develop practical OCR for mathematical and other scientific documents. Specifically, the following four viewpoints are quantified using a large-scale database of mathematical documents, which contains manually ground-truthed 670,000 characters : (i) the number of character categories, (ii) abnormal characters (e. g., touching characters), (iii) character size variation, and (iv) the complexity of math expressions. The result of those analyses clarifies the difficulties on recognizing math documents and then suggests the promising directions to overcome them.
キーワード(和) 数学文書 / OCR / データベース / 定量的解析
キーワード(英) mathematical documents / OCR / database / quantitative analysis
資料番号 TL2003-48,PRMU2003-234
発行日

研究会情報
研究会 TL
開催期間 2004/2/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Thought and Language (TL)
本文の言語 JPN
タイトル(和) 数学文書データベースの解析(文字とドキュメントの認識・理解)
サブタイトル(和)
タイトル(英) Quantitative Analysis of Mathematical Documents
サブタイトル(和)
キーワード(1)(和/英) 数学文書 / mathematical documents
キーワード(2)(和/英) OCR / OCR
キーワード(3)(和/英) データベース / database
キーワード(4)(和/英) 定量的解析 / quantitative analysis
第 1 著者 氏名(和/英) 内田 誠一 / Seiichi UCHIDA
第 1 著者 所属(和/英) 九州大学大学院システム情報科学研究院
Faculty of Information Science and Electrical Engineering, Kyushu University
第 2 著者 氏名(和/英) 野村 明弘 / Akihiro NOMURA
第 2 著者 所属(和/英) 九州大学大学院数理学府
Graduate School of Mathematics, Kyushu University
第 3 著者 氏名(和/英) 鈴木 昌和 / Masakazu SUZUKI
第 3 著者 所属(和/英) 九州大学大学院数理学研究院
Faculty of Mathematics, Kyushu University
発表年月日 2004/2/13
資料番号 TL2003-48,PRMU2003-234
巻番号(vol) vol.103
号番号(no) 657
ページ範囲 pp.-
ページ数 6
発行日