講演名 1998/5/13
英文曖昧検索における拡張検索文字列数の削減
太田 学, 高須 淳宏, 安達 淳,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 文書画像を扱う電子図書館ではOCR入力したテキストが検索などに活用されるが、この時OCRの認識誤りが問題となる。著者らはコストの観点から、この認識誤りを訂正するのではなく検索段階で吸収する曖昧検索を提案してきた。提案手法は、認識誤りの可能性のある文字とその確率を保持した類似文字テーブル及び拡張類似文字テーブルを参照して、1つの入力検索語から複数の検索文字列を生成して検索を行なう。そのため適合率を殆ど下げずに再現率を改善できるが、英文曖昧検索では生成文字列数が膨大になる場合があり、検索速度の点で問題である。そこで本稿では、生成文字列に含まれる誤りの数を制限することで、検索効率を維持しながら生成文字列数を削減する手法について述べる。
抄録(英) OSR misrecognition is a serious problem where OCR-recognized text is used for retrieval purpose in digital libraries. We have proposed fuzzy retrieval methods which assume that errors remain in the recognized text, without correcting errors manually from a cost standpoint. The proposed methods generate multiple search terms for an input query term by referring to the confusion matrices which store all characters likely to be misrecognized and the respective probability of each misrecognition. The proposed methods can improve recall rate without decreasing precision rate but occasionally generate a few million search terms in English fuzzy retrieval, which is a bottleneck for retrieval speed. Therefore this paper presents a method to reduce the number of the generated search terms with keeping sufficient retrieval effectiveness by restricting the number of errors included in the expanded search terms.
キーワード(和) 曖昧検索 / 検索語拡張 / 検索速度 / 類似文字テーブル / OCR
キーワード(英) fuzzy retrieval / query term expansion / retrieval speed / confusion matrix / OCR
資料番号
発行日

研究会情報
研究会 DE
開催期間 1998/5/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 英文曖昧検索における拡張検索文字列数の削減
サブタイトル(和)
タイトル(英) Reduction of Expanded Search Terms for Fuzzy English-text Retrieval
サブタイトル(和)
キーワード(1)(和/英) 曖昧検索 / fuzzy retrieval
キーワード(2)(和/英) 検索語拡張 / query term expansion
キーワード(3)(和/英) 検索速度 / retrieval speed
キーワード(4)(和/英) 類似文字テーブル / confusion matrix
キーワード(5)(和/英) OCR / OCR
第 1 著者 氏名(和/英) 太田 学 / Manabu OHTA
第 1 著者 所属(和/英) 東京大学大学院工学系研究科
Graduate School of Engineering, University of Tokyo
第 2 著者 氏名(和/英) 高須 淳宏 / Atsuhiro TAKASU
第 2 著者 所属(和/英) 学術情報センター研究開発部
R & D Department, NACSIS(National Center for Science Information Systems)
第 3 著者 氏名(和/英) 安達 淳 / Jun ADACHI
第 3 著者 所属(和/英) 学術情報センター研究開発部
R & D Department, NACSIS(National Center for Science Information Systems)
発表年月日 1998/5/13
資料番号
巻番号(vol) vol.98
号番号(no) 42
ページ範囲 pp.-
ページ数 8
発行日