講演名 1993/12/10
マルコフ連鎖モデルによる日本語文と英語文の誤り検出評価
荒木 哲郎, 池原 悟, 塚原 信幸,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では、OCRや連続音声認識によって入力された日本語文や英語文における、脱落、誤挿入、及び誤字誤りの文字列を、2重及び3重のマルコフ連鎖モデルを用いて自動的に検出・訂正する効果を、実際に日本語及び英語の新聞記事を用いて評価すると共に、既存のスペルチェッカーによる英字誤りの検出・訂正結果と比較した。その結果、次のような知見を得た。(1)日本語音節の3種マルコフ連鎖モデルを用いて誤り検出は、2重マルコフ連鎖確率の場合よりも、挿入誤りで10~20%、また脱落及び誤字誤りで5~10%程度適合率及び再現率を改善する効果があることがわかった。(2)マルコフ連鎖モデルを用いた英単語に対する誤り検出の適合率、再現率は、日本語の音節文節に対する誤り検出の場合とほぼ同程度または若干小さい値が得られた。また既存のスペルチェッカーは、誤った単語に対する学習をしない条件の下では、誤った単語のほとんど全てを検出するが、訂正能力についてみれば、1文字誤りの場合は正解候補が得られる割合は80%であるのに対し、2文字誤りの場合の正解候補は10%に低下するため、誤り単語の検出についてはスペルチェカーが、また訂正についてはマルコフ連鎖モデルによる方法が有利であると考えられる。
抄録(英) In optical character recognition and continuous speech recognition of Japanese and English sentences,the relevance factor and recall factor for erroneous characters detected and corrected by 2nd-order and 3rd-order Markov chain models are experimentally evaluated using statistical data of Japanese and English newspapers. The following results are obtained: (1)The relevance factor and recall factor of erroneous characters inserted wrongly were improved by 10-20 % and that of erroneous chacters deleted and substituted wrongly were improved by 5-10 % in case of 3rd-order Markov chain model. (2)The capability to detect erroneous chacters of English sentences using the spell checker is greater than that of Markov method,however the capability to correct erroneous characters using the spell checker is smaller than that of Makov methods.
キーワード(和) マルコフモデル / 誤り検出 / 誤り訂正 / 置換誤り / 脱落誤り / 挿入誤り
キーワード(英) Markov model / Error detection / Error correction / substitution error / deletion error / insertion error
資料番号 NLC93-62
発行日

研究会情報
研究会 NLC
開催期間 1993/12/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) マルコフ連鎖モデルによる日本語文と英語文の誤り検出評価
サブタイトル(和)
タイトル(英) An Evaluation of Error Detection for Japanese and English Sentences using Markov Chain Models
サブタイトル(和)
キーワード(1)(和/英) マルコフモデル / Markov model
キーワード(2)(和/英) 誤り検出 / Error detection
キーワード(3)(和/英) 誤り訂正 / Error correction
キーワード(4)(和/英) 置換誤り / substitution error
キーワード(5)(和/英) 脱落誤り / deletion error
キーワード(6)(和/英) 挿入誤り / insertion error
第 1 著者 氏名(和/英) 荒木 哲郎 / Tetsuo Araki
第 1 著者 所属(和/英) 福井大学工学部
Faculty of Engineering,Fukui University
第 2 著者 氏名(和/英) 池原 悟 / Satoru Ikehara
第 2 著者 所属(和/英) NTT情報通信網研究所
NTT Network Information Systems Laboratories
第 3 著者 氏名(和/英) 塚原 信幸 / Nobuyuki Tukahara
第 3 著者 所属(和/英) 福井大学工学部
Faculty of Engineering,Fukui University
発表年月日 1993/12/10
資料番号 NLC93-62
巻番号(vol) vol.93
号番号(no) 367
ページ範囲 pp.-
ページ数 8
発行日