講演名 2011-03-10
新聞画像アーカイブのための画像処理技術の研究(テーマセッション,文字・文書の認識と理解)
島 貴宏, 寺沢 憲吾, 川嶋 稔夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 古い活字文書に対する画像同士の比較による全文検索技術が研究されている.全文検索にあたってはあらかじめ文字切り出しがなされていることが望ましいが,古い活字文書は現代の文書とは異なる特性を持っており,市販OCRソフトウェアでは高精度な文字切り出しが行えない.そこで本研究では,明治期の新聞画像に対する全文検索のため,高精度な文字切り出しを行うための画像処理技術について研究する.精度低下を招く要因として考えられる罫線・ノイズ・ルビを除去する手法を提案し,高精度化を図る.また,市販OCRソフトウェアでは古い活字文書に対するレイアウト解析に限界があるため,あらかじめ行切り出しを行うことでそれを助ける.実験の結果,文字切り出しの精度を約92%まで向上させることができた.
抄録(英) We previously researched a fast full text searching method using word spotting technique. This method needed to segment newspaper image into character images in advance, however it was a difficult issue. Optical character recognition can be applied only if document images are noiseless and are printed in modern technique, but it cannot be applied to old and degraded document images. We propose an image processing method to improve character segmentation. To segment a whole newspaper image into paragraph images, ruled lines are detected using Hough Transform. The paragraph images contain some hindrances for character segmentation such as ruled lines, ruby characters and noises. Our algorithms remove them. The proposed system is tested for 20 paragraph images of historical newspaper. The accuracy of character segmentation is improved to approximately 92%.
キーワード(和) 歴史的文書 / 全文検索 / 文字切り出し / 光学文字認識 / ディジタルアーカイブ / ワードスポッティング
キーワード(英) Historical Document / Full Text Search / Character Segmentation / Optical Character Recognition / Digital Archive / Word Spotting
資料番号 PRMU2010-237
発行日

研究会情報
研究会 PRMU
開催期間 2011/3/3(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 新聞画像アーカイブのための画像処理技術の研究(テーマセッション,文字・文書の認識と理解)
サブタイトル(和)
タイトル(英) Image Processing for Historical Newspaper Archives
サブタイトル(和)
キーワード(1)(和/英) 歴史的文書 / Historical Document
キーワード(2)(和/英) 全文検索 / Full Text Search
キーワード(3)(和/英) 文字切り出し / Character Segmentation
キーワード(4)(和/英) 光学文字認識 / Optical Character Recognition
キーワード(5)(和/英) ディジタルアーカイブ / Digital Archive
キーワード(6)(和/英) ワードスポッティング / Word Spotting
第 1 著者 氏名(和/英) 島 貴宏 / Takahiro SHIMA
第 1 著者 所属(和/英) 公立はこだて未来大学大学院システム情報科学研究科
Graduate School of Systems Information Science, Future University Hakodate
第 2 著者 氏名(和/英) 寺沢 憲吾 / Kengo TERASAWA
第 2 著者 所属(和/英) 公立はこだて未来大学大学院システム情報科学研究科
Graduate School of Systems Information Science, Future University Hakodate
第 3 著者 氏名(和/英) 川嶋 稔夫 / Toshio KAWASHIMA
第 3 著者 所属(和/英) 公立はこだて未来大学大学院システム情報科学研究科
Graduate School of Systems Information Science, Future University Hakodate
発表年月日 2011-03-10
資料番号 PRMU2010-237
巻番号(vol) vol.110
号番号(no) 467
ページ範囲 pp.-
ページ数 6
発行日