講演名 | 2001/5/4 文脈情報を利用した多文字複合語の分割 韓 東力, 加藤 浩一, 古郡 廷治, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 辞書に未登録の複合語の解析は、実用的な自然言語システムを実現する上で解決しなければならない困難な問題の一つである。本稿では、長漢字列(多文字複合語)を対象にし、分割可能な語間の共起情報を使って、複合語を単位語に分割する実験を試みた。共起情報の算出にあたっては、複合語そのものだけではなく、その複合語を含む文脈も考慮した。実験結果では、90%以上の分割正解率を得た。 |
抄録(英) | Analyzing compound words is one of the crucial problems in constructing practieal natural language processing systems. In this paper, we propose a method for segmenting compound word, which consists of a long sequence of Kanji characters, in text by using statistics on word co-occurrences. We conducted an experiment that used the co-occurrence information within the compound word and the context in whieh it appreared. Its result shows a success rate of over 90% in dividing the compound words into their unit words. |
キーワード(和) | 多文字複合語 / 分割 / 共起情報 / 相互情報量 / 文脈情報 |
キーワード(英) | Compound word / Segmentation / Co-occurrence / Mutual information / Contextual information |
資料番号 | NLC2001-5 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2001/5/4(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 文脈情報を利用した多文字複合語の分割 |
サブタイトル(和) | |
タイトル(英) | Automatic Segmentation of Compound Word in Japanese using Contextual Information |
サブタイトル(和) | |
キーワード(1)(和/英) | 多文字複合語 / Compound word |
キーワード(2)(和/英) | 分割 / Segmentation |
キーワード(3)(和/英) | 共起情報 / Co-occurrence |
キーワード(4)(和/英) | 相互情報量 / Mutual information |
キーワード(5)(和/英) | 文脈情報 / Contextual information |
第 1 著者 氏名(和/英) | 韓 東力 / Dongli Han |
第 1 著者 所属(和/英) | 電気通信大学情報工学科 Department of Computer Science, The University of Electro-Communications |
第 2 著者 氏名(和/英) | 加藤 浩一 / Koichi Kato |
第 2 著者 所属(和/英) | 電気通信大学情報工学科 Department of Computer Science, The University of Electro-Communications |
第 3 著者 氏名(和/英) | 古郡 廷治 / Teiji Furugori |
第 3 著者 所属(和/英) | 電気通信大学情報工学科 Department of Computer Science, The University of Electro-Communications |
発表年月日 | 2001/5/4 |
資料番号 | NLC2001-5 |
巻番号(vol) | vol.101 |
号番号(no) | 40 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |