講演抄録/キーワード |
講演名 |
2015-12-03 13:30
深層学習とOCRを併用した論文画像からの数式領域の検出 ○伊達信太郎・磯崎秀樹(岡山県立大) NLC2015-37 |
抄録 |
(和) |
科学技術文献等に基づく質問応答システムを構築する上で,
テキスト部分だけでなく図表や数式を解答候補として扱えるようにしたい.
現在の OCR や PDF 解析ソフトでは数式部分は文字化けしたり,間違った文字列を返すことが多い.
そこで,画像認識で好成績を収めている深層学習を用いて,
文書画像中から数式領域を取り出してみたところ,数式らしい部分は検出できた
が,数式が行の途中に埋め込まれている場合,その数式の範囲を検出するのは難しく,
OCRを併用することにした.
ACL Anthology に公開されているいくつかの予稿集から多様な構造を持つ数式の
領域を抽出する実験を行ったので実験結果を報告する. |
(英) |
We are building a QA system about scientific literatures.
We can ask questions such as ``what is the definition of C-value?''
Its answer is a mathematical formula.
Thus, mathematical formulas play important roles just like
named entities in Open Domain Question Answering.
%We are not interested in how the formula is constructed
Unlike Math OCR, we are not interested in how the formula is constructed
and simply treat formulas as images.
In this paper, we present a formula image detection method based on
Deep Learning and open source OCR software.
First, we tried Deep Learning to detect mathematical formulas, but it was difficult to detect in-line formulas.
Therefore, we also used open source OCR software.
We show experimental results based on ACL Anthology papers. |
キーワード |
(和) |
数式認識 / 文書解析 / 質問応答システム / 深層学 / OCR / / / |
(英) |
QA system / Deep Learning / OCR / / / / / |
文献情報 |
信学技報, vol. 115, no. 347, NLC2015-37, pp. 19-24, 2015年12月. |
資料番号 |
NLC2015-37 |
発行日 |
2015-11-26 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
NLC2015-37 |