講演名 2004/2/13
複数の文書理解システムを用いた文書理解の高度化(文字とドキュメントの認識・理解)
中野 康明, 花野井 歳弘, 丸山 稔, 宮尾 秀俊, 丸山 健一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 複数のOCRの出力結果から文字ごとに多数決を取ることにより高い認識率が得られることは古くから知られている.本報告ではこの手法を印刷日本語文書に適用した結果を述べる.従来の研究の大半は認識対象領域を手動で指定していたための実用上での問題に対し,OCRの出力として得られる領域情報の対応付けを行うことにより,人間の介入を減少させる方法の提案とその結果について報告する.日本語印刷文書画像データベースJEIDA'93を用いて実験し,単独OCRで最高97.6%であった認識率を98.8%に上昇できた.
抄録(英) It is well known that integration of multiple OCR outputs can give higher performance than a single OCR. This idea was applied to the printed Japanese recognition and better performance was obtained. In the conventional experiments, the zoning, or the indication of the text region was done manually and this has been a problem from the practical viewpoint. An approach to match the classified regions outputted by multiple OCRs was proposed. By the proposed method, a high recognition rate of 98.8% was obtained from no better than 97.6% OCR systems.
キーワード(和) 文書理解 / 印刷日本語OCR / 文字認識 / 多数決処理
キーワード(英) Document Analysis / Printed Japanese OCR / Character Recognition / Majority Logic
資料番号 TL2003-54,PRMU2003-240
発行日

研究会情報
研究会 TL
開催期間 2004/2/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Thought and Language (TL)
本文の言語 ENG
タイトル(和) 複数の文書理解システムを用いた文書理解の高度化(文字とドキュメントの認識・理解)
サブタイトル(和)
タイトル(英) An Approach to Extend Document Analysis Performance Using Multiple Document Analysis Systems
サブタイトル(和)
キーワード(1)(和/英) 文書理解 / Document Analysis
キーワード(2)(和/英) 印刷日本語OCR / Printed Japanese OCR
キーワード(3)(和/英) 文字認識 / Character Recognition
キーワード(4)(和/英) 多数決処理 / Majority Logic
第 1 著者 氏名(和/英) 中野 康明 / Yasuaki NAKANO
第 1 著者 所属(和/英) 九州産業大学情報科学部
Kyushu Sangyo University
第 2 著者 氏名(和/英) 花野井 歳弘 / Toshihiro HANANOI
第 2 著者 所属(和/英) 信州大学工学部
Shinshu University
第 3 著者 氏名(和/英) 丸山 稔 / Minoru MARUYAMA
第 3 著者 所属(和/英) 信州大学工学部
Shinshu University
第 4 著者 氏名(和/英) 宮尾 秀俊 / Hidetoshi MIYAO
第 4 著者 所属(和/英) 信州大学工学部
Shinshu University
第 5 著者 氏名(和/英) 丸山 健一 / Ken-ichi MARUYAMA
第 5 著者 所属(和/英) メディアドライブ株式会社
Mediadrive Corporation
発表年月日 2004/2/13
資料番号 TL2003-54,PRMU2003-240
巻番号(vol) vol.103
号番号(no) 657
ページ範囲 pp.-
ページ数 6
発行日