電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2015-12-03 13:30
深層学習とOCRを併用した論文画像からの数式領域の検出
伊達信太郎磯崎秀樹岡山県立大
技報オンラインサービス実施中
抄録 (和) 科学技術文献等に基づく質問応答システムを構築する上で,
テキスト部分だけでなく図表や数式を解答候補として扱えるようにしたい.
現在の OCR や PDF 解析ソフトでは数式部分は文字化けしたり,間違った文字列を返すことが多い.
そこで,画像認識で好成績を収めている深層学習を用いて,
文書画像中から数式領域を取り出してみたところ,数式らしい部分は検出できた
が,数式が行の途中に埋め込まれている場合,その数式の範囲を検出するのは難しく,
OCRを併用することにした.
ACL Anthology に公開されているいくつかの予稿集から多様な構造を持つ数式の
領域を抽出する実験を行ったので実験結果を報告する. 
(英) We are building a QA system about scientific literatures.
We can ask questions such as ``what is the definition of C-value?''
Its answer is a mathematical formula.
Thus, mathematical formulas play important roles just like
named entities in Open Domain Question Answering.
%We are not interested in how the formula is constructed
Unlike Math OCR, we are not interested in how the formula is constructed
and simply treat formulas as images.
In this paper, we present a formula image detection method based on
Deep Learning and open source OCR software.
First, we tried Deep Learning to detect mathematical formulas, but it was difficult to detect in-line formulas.
Therefore, we also used open source OCR software.
We show experimental results based on ACL Anthology papers.
キーワード (和) 数式認識 / 文書解析 / 質問応答システム / 深層学 / OCR / / /  
(英) QA system / Deep Learning / OCR / / / / /  
文献情報 信学技報, vol. 115, no. 347, NLC2015-37, pp. 19-24, 2015年12月.
資料番号 NLC2015-37 
発行日 2015-11-26 (NLC) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
査読に
ついて
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります.

研究会情報
研究会 NLC IPSJ-NL SP IPSJ-SLP  
開催期間 2015-12-02 - 2015-12-04 
開催地(和) 名古屋工業大学 
開催地(英) Nagoya Inst of Tech. 
テーマ(和) 第2回自然言語処理シンポジウム & 第17回音声言語シンポジウム 
テーマ(英) The Second Natural Language Processing Symposium & The 17th Spoken Language Symposium 
講演論文情報の詳細
申込み研究会 NLC 
会議コード 2015-12-NLC-NL-SP-SLP 
本文の言語 日本語 
タイトル(和) 深層学習とOCRを併用した論文画像からの数式領域の検出 
サブタイトル(和)  
タイトル(英) Detection of Mathematical Formula Regions in Images of Scientific Papers by using Deep Learning and OCR 
サブタイトル(英)  
キーワード(1)(和/英) 数式認識 / QA system  
キーワード(2)(和/英) 文書解析 / Deep Learning  
キーワード(3)(和/英) 質問応答システム / OCR  
キーワード(4)(和/英) 深層学 /  
キーワード(5)(和/英) OCR /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 伊達 信太郎 / Shintaro Date / ダテ シンタロウ
第1著者 所属(和/英) 岡山県立大学 (略称: 岡山県立大)
Okayama Prefectural University (略称: Okayama Pref. Univ.)
第2著者 氏名(和/英/ヨミ) 磯崎 秀樹 / Hideki Isozaki /
第2著者 所属(和/英) 岡山県立大学 (略称: 岡山県立大)
Okayama Prefectural University (略称: Okayama Pref. Univ.)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2015-12-03 13:30:00 
発表時間 120 
申込先研究会 NLC 
資料番号 IEICE-NLC2015-37 
巻番号(vol) IEICE-115 
号番号(no) no.347 
ページ範囲 pp.19-24 
ページ数 IEICE-6 
発行日 IEICE-NLC-2015-11-26 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会