講演名 2004/2/12
文書内の統計的性質のみを使用した日本語分割(文字とドキュメントの認識・理解)
神村 恒, 大石 邦夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 計算機の高速化に伴い,機械翻訳は実用的なものとなった.更に,記憶容量の増加に伴い,単語知識の蓄積量が多くなり,機械による言語理解の精度は向上している.しかし,単語知識は常に更新していかないと新しく生まれた単語に対応できなくなり,言語理解の精度が低くなるという問題を抱えている.また,単語知識や,それの学習に使用するコーパスは,最終的な部分で人手に頼って精度を上げているのが実状である.本研究では,単語知識を使用せずに,文書内の統計的性質のみを使用して日本語分割を行う方法を提案する.
抄録(英) Machine translation became practical with improvement in the speed of a computer. Furthermore, the accuracy of the natural language processing by the computer is improving in the increase in accumulation of the word knowledge accompanying the increase in a storage capacity. However, if word knowledge is not always updated, it will become impossible to correspond to a new word, and the accuracy of natural language processing will become low. Moreover, it is actual that people are raising accuracy as for word knowledge or the corpus. In this paper, the method of performing Japanese segmentation only using the statistical character in a document is proposed without using word knowledge.
キーワード(和) 日本語分割 / PPM / グラフ / 可変長nグラム
キーワード(英) Japanese segmentation / PPM / graph / variable length n-gram
資料番号 TL2003-33,PRMU2003-219
発行日

研究会情報
研究会 TL
開催期間 2004/2/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Thought and Language (TL)
本文の言語 JPN
タイトル(和) 文書内の統計的性質のみを使用した日本語分割(文字とドキュメントの認識・理解)
サブタイトル(和)
タイトル(英) Japanese segmentation with only statistical property in a document (Thought and Language)
サブタイトル(和)
キーワード(1)(和/英) 日本語分割 / Japanese segmentation
キーワード(2)(和/英) PPM / PPM
キーワード(3)(和/英) グラフ / graph
キーワード(4)(和/英) 可変長nグラム / variable length n-gram
第 1 著者 氏名(和/英) 神村 恒 / Hisashi KAMIMURA
第 1 著者 所属(和/英) 東京工科大学大学院工学研究科
Graduate School of System Electronics, Tokyo University of Technology
第 2 著者 氏名(和/英) 大石 邦夫 / Kunio OISHI
第 2 著者 所属(和/英) 東京工科大学工学部電子工学科
Electronic departments, Tokyo University of Technology
発表年月日 2004/2/12
資料番号 TL2003-33,PRMU2003-219
巻番号(vol) vol.103
号番号(no) 656
ページ範囲 pp.-
ページ数 6
発行日