講演名 1995/12/15
統計的手法による単語の切出しについて
中波瀬 秀一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では簡単な字面処理によって,テキストから単語を自動抽出する方法について述べる。分かち書きされていない日本語テキストから単語を得るためには,形態素解析が必要であるが,これには未知語や暖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人手によって作成される辞書が必要であった。本手法でNグラムの頻度情報を用いる。まず,Nグラムの頻度情報から文字列の正規化頻度を計算し,次にそれを用いて語の境界を獲得する。これによって字面処理だけによって,単語の切出しが可能になった。EDR日本語コーパスを用いた実験の結果,獲得された形態素境界の適合率は82.39%,再現率は69.84%であった。
抄録(英) This paper describes a new method to acquire words automatically from a Japanese text. Morphological analysis is necessary to recognize words from a Japanese text. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. This method is based on the N-gram method which need not traditional morphological analysis. It includes 2 steps: (1) calculation of Normalized Frequency for each substring included in the Japanese text using the N-gram statistics, (2) acquisition of the boundary between words. Experiments were done on EDR Japanese corpus. we obtained the correct recognition scores of 82.39% and the recall scores of 69.84%.
キーワード(和) Nグラム / 自然言語解析 / 形態素解析 / 統計情報
キーワード(英) word extraction / N-gram / natural language analysis / morphological analysis / statistics
資料番号 NLC95-68
発行日

研究会情報
研究会 NLC
開催期間 1995/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 統計的手法による単語の切出しについて
サブタイトル(和)
タイトル(英) Automatic Acquisition of Words by Using Statistical Text Information
サブタイトル(和)
キーワード(1)(和/英) Nグラム / word extraction
キーワード(2)(和/英) 自然言語解析 / N-gram
キーワード(3)(和/英) 形態素解析 / natural language analysis
キーワード(4)(和/英) 統計情報 / morphological analysis
第 1 著者 氏名(和/英) 中波瀬 秀一 / Hidekazu NAKAWATASE
第 1 著者 所属(和/英) NTT情報通信研究所
NTT Information and Communication Systems Laboratories
発表年月日 1995/12/15
資料番号 NLC95-68
巻番号(vol) vol.95
号番号(no) 429
ページ範囲 pp.-
ページ数 6
発行日