講演名 2013-03-14
OCROpUSを用いた数式を含む科学技術文献の読取りシステム(テーマセッション,文字・文書の認識と理解及びアルゴリズム・システム評価)
古郡 史啓, 宮岸 高規, 白井 啓一郎, 岡本 正行,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,オープンソースのOCRソフトであるOCROpUSへの数式認識モジュールの組込みを目的とし,本稿では特にインライン数式の抽出を取り扱う.数式を含むテキストラインを単語単位に分割し言語モデルとの照合を行えば,数式部分と通常の単語とをかなりの正確さで区別できる.また,数式は文字の外接矩形のアスペクト比がばらつく傾向があるため,外接矩形に関連する特徴量を用いてSVMによる識別を行い,数式の抽出率を高めている.
抄録(英) This paper describes installation of a mathematical formula recognition module into open source OCR system OCRopus, especially we consider the identification of inline formulas. Splitting a textline which includes math formulas into words and verifying them using a language model, we can distinguish the math formulas from words. Additionally, because the math formulas tend to have a variety of bounding boxes of symbols aspect ratios, we employ SVM using features associated with the bounding boxes so as to improve the accuracy of identification.
キーワード(和) 光学文字認識 / OCRopus / 数式認識
キーワード(英) OCR / OCRopus / Mathematical formula recognition
資料番号 PRMU2012-193
発行日

研究会情報
研究会 PRMU
開催期間 2013/3/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) OCROpUSを用いた数式を含む科学技術文献の読取りシステム(テーマセッション,文字・文書の認識と理解及びアルゴリズム・システム評価)
サブタイトル(和)
タイトル(英) An OCR system with OCRopus for scientific documents containing mathematical expressions
サブタイトル(和)
キーワード(1)(和/英) 光学文字認識 / OCR
キーワード(2)(和/英) OCRopus / OCRopus
キーワード(3)(和/英) 数式認識 / Mathematical formula recognition
第 1 著者 氏名(和/英) 古郡 史啓 / Fumihiro FURUKORI
第 1 著者 所属(和/英) 信州大工学部
Faculty of Engineering, Shinshu Univ.
第 2 著者 氏名(和/英) 宮岸 高規 / Takanori MIYAGISHI
第 2 著者 所属(和/英) 信州大工学部
Faculty of Engineering, Shinshu Univ.
第 3 著者 氏名(和/英) 白井 啓一郎 / Keiichiro SHIRAI
第 3 著者 所属(和/英) 信州大工学部
Faculty of Engineering, Shinshu Univ.
第 4 著者 氏名(和/英) 岡本 正行 / Masayuki OKAMOTO
第 4 著者 所属(和/英) 信州大工学部
Faculty of Engineering, Shinshu Univ.
発表年月日 2013-03-14
資料番号 PRMU2012-193
巻番号(vol) vol.112
号番号(no) 495
ページ範囲 pp.-
ページ数 5
発行日