講演名 | 1998/9/18 類似文字による日本語単語抽出 糸乗 勝彦, 尾崎 正治, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 文字をあらかじめ類似文字カテゴリに分類し、文書画像中の各文字をカテゴリの並びとしていったん識別し、そのカテゴリ列を形態素解析することで単語を高速に抽出する手法を提案する。学習サンプルでの識別実験では類似文字カテゴリを2, 000とした場合、約99.3%の類似文字カテゴリへの識別率で、識別に必要な距離計算回数は総当たりによる距離計算回数の約8分1になることが実験により確認できた。実際のテキストに対する実験では、類似文字カテゴリ識別精度97.5%、距離計算回数は総当たりに比較して10分の1で、形態素解析によって約85%の文字を一意に決定でき、残りの決定できない文字についても約2.8文字の候補文字に対する詳細な識別処理で済むことを確認した。最終的な文書中の単語抽出率は約94%であった。 |
抄録(英) | A fast word extraction techique from Japanese document images is described. It classifies each character image not into characters but into a small number of categories, each of which consists of similarly shaped characters. After the classification, it performs morphological analysis on the obtained sequence of the categories to reduce character candidates. Finally, detailed classification is performed on character images which cannot be identified as single characters. As a result of the experiments for the learning samples, the classification accuracy into the categories was 99.3% and the speed was eight times faster than traditional Japanese OCRs. From the result of experiments for actual text samples, we confirmed that the classification speed is ten times faster for them. The morphological analysis effectively reduced the number of character candidates with the fact that 85% of characters can be identified as single characters and the number of the candidates was 2.8. |
キーワード(和) | 単語抽出 / 類似文字 / 文字認識 / 文書画像 / 情報検索 |
キーワード(英) | Word Extraction / Similarly Shaped Characters / Character Recognition / Document Image / Information Retrieval |
資料番号 | PRMU98-87 |
発行日 |
研究会情報 | |
研究会 | PRMU |
---|---|
開催期間 | 1998/9/18(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Pattern Recognition and Media Understanding (PRMU) |
---|---|
本文の言語 | JPN |
タイトル(和) | 類似文字による日本語単語抽出 |
サブタイトル(和) | |
タイトル(英) | Japanese Word Extraction from a Sequence of Similarly Shaped Character Categories |
サブタイトル(和) | |
キーワード(1)(和/英) | 単語抽出 / Word Extraction |
キーワード(2)(和/英) | 類似文字 / Similarly Shaped Characters |
キーワード(3)(和/英) | 文字認識 / Character Recognition |
キーワード(4)(和/英) | 文書画像 / Document Image |
キーワード(5)(和/英) | 情報検索 / Information Retrieval |
第 1 著者 氏名(和/英) | 糸乗 勝彦 / Katsuhiko Itonori |
第 1 著者 所属(和/英) | 富士ゼロックス株式会社オフィスドキュメントプロダクト事業本部 Fuji Xerox Co., Ltd. Office Document Products Group |
第 2 著者 氏名(和/英) | 尾崎 正治 / Masaharu Ozaki |
第 2 著者 所属(和/英) | IT事業開発センター Development Center for IT Businesses |
発表年月日 | 1998/9/18 |
資料番号 | PRMU98-87 |
巻番号(vol) | vol.98 |
号番号(no) | 275 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |