講演名 2004/2/12
使えば使うほど賢くなる識別器(文字とドキュメントの認識・理解)
,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 代表から外れたデータを学習させると,どんな識別器でも新データでは多くの誤認識が生じる。正解付けされた学習データを用いてOCRエンジンを再学習すれば,識別器の偏りと分散の両者、すなわち、誤認識率を減らすことが可能である。学習データを予め編集できない場合には、そのかわりに,識別器によって決められた(幾つかは誤りの可能性のある)不完全ラベルを識別器適応化に使うことになる。この判定駆動型の適応化は,それに関する理論的基礎は貧弱ではあるが、種々の実験でうまくいくことが実証されている。取り扱っているデータを一つの元から生じたサブセット(例えば、同一筆者や同一フォント種のセットなど)に分割できる場合には、識別器のパラメータをそれぞれのサブセット用に独立に適応させるべきである。しかしながら、例えば、郵便番号や小切手読取りのように、もし同じ元をもったサブセットのデータ数が少ない場合には、一度に複数文字の文字列を識別することが有利となる。スタイル制約型識別では、識別フィールドより短いフィールドで識別器をトレーニングさせることができる。特に準定型書式の読取りのためには,言語文脈情報を取扱い可能なデータストリームに適合できる体系的手法の開発がまだ残されてはいるが、この動的識別器のみが、不完全な印刷・手書き・複写文書を読取れる人間の能力に対抗できる望みとなる。
抄録(英) Training on non-representative data causes any classifier to make many mistakes on new data. Retraining an OCR engine with labeled characters, obtained from routine post-editing, can reduce both the bias and the variance of the classifier, and therefore its error rate. In the absence of post-edits, the imperfect labels assigned by the classifier can be used instead. Although the theoretical foundations of decision-directed adaptation are meager, adaptation has proved successful in diverse experiments. When the operational data can be partitioned into isogenous subsets, the classifier parameters should be adapted independently on each subset. However, if the same-source subsets are small, as in postal-code or bank-check reading, it is advantageous to classify more than one character at a time. Style-constrained classification allows training the classifier on fields shorter than the classification field. Systematic methods still remain to be developed for adapting language context to the operational data stream, particularly for semi-structured business forms. Only dynamic classifiers can hope to rival human performance on imperfectly printed, written, copied, or scanned documents.
キーワード(和) 動的識別器 / 準教師あり学習 / 教師なし学習 / 判定指向型適応 / 自己修正識別器 / スタイル制約型フィールド識別 / 弱制約データ / 非代表学習データセット / 言語文脈
キーワード(英) Dynamic classifier / Semi-supervised or unsupervised learning / Decision-directed adaptation / Self-correcting classifier / Style-constrained field classification / Weakly-constrained data / Non-representative training set / Language context
資料番号 TL2003-42,PRMU2003-228
発行日

研究会情報
研究会 TL
開催期間 2004/2/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Thought and Language (TL)
本文の言語 ENG
タイトル(和) 使えば使うほど賢くなる識別器(文字とドキュメントの認識・理解)
サブタイトル(和)
タイトル(英) Classifiers That Improve with Use (Thought and Language)
サブタイトル(和)
キーワード(1)(和/英) 動的識別器 / Dynamic classifier
キーワード(2)(和/英) 準教師あり学習 / Semi-supervised or unsupervised learning
キーワード(3)(和/英) 教師なし学習 / Decision-directed adaptation
キーワード(4)(和/英) 判定指向型適応 / Self-correcting classifier
キーワード(5)(和/英) 自己修正識別器 / Style-constrained field classification
キーワード(6)(和/英) スタイル制約型フィールド識別 / Weakly-constrained data
キーワード(7)(和/英) 弱制約データ / Non-representative training set
キーワード(8)(和/英) 非代表学習データセット / Language context
キーワード(9)(和/英) 言語文脈
第 1 著者 氏名(和/英) / George Nagy
第 1 著者 所属(和/英) レンセラー工科大学
Rensselaer Polytechnic Institute
発表年月日 2004/2/12
資料番号 TL2003-42,PRMU2003-228
巻番号(vol) vol.103
号番号(no) 656
ページ範囲 pp.-
ページ数 8
発行日