講演名 1997/7/25
シソーラスへの未登録語の自動登録
中山 拓也, 松本 裕治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 自然言語処理において, シソーラスは語の意味的な類似性を得るための有効な資源である. しかし, その構築には多大な労力が伴うため, 計算機による自動構築/拡張が望まれる. ここでは, 既存の日本語シソーラスへの未登録語の登録による拡張を対象とする. そのための手がかりとして, 本稿では, 漢字の表意性に注目した文字情報と, コーパスから得られる共起情報を用いた. 文字情報からは, 上位/下位関係などの関係による分類の手がかり, 共起情報からはシソーラスの分類基準となる特徴を抽出し, それによって未登録語の分類先を推定する. 評価実験の結果では, 完全自動までは出来ないが, 登録支援には有効であるとの結果が得られた.
抄録(英) In computational natural language processing, a thesaurus is one of useful information for getting scmantical simirality of words. An automatic method to construct or augment a thesaurus is required because a great effort is necessary to achieve it by hand. In this report, we present a method to augment a Japanese thesaurus by using two kinds of information. One is information of kanji characters (ideograms) from which relations of words such as superior or subordinate can be obtained. The other is collocational information retrieved from corpora. Some experimental results are given, which indicates that the proposed method is usable in classifying unknown words in the proper class.
キーワード(和) シソーラス / 表意文字 / 共起情報 / 日本語
キーワード(英) thesaurus / ideogram / collocation / Japanese
資料番号 NLC97-23
発行日

研究会情報
研究会 NLC
開催期間 1997/7/25(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) シソーラスへの未登録語の自動登録
サブタイトル(和)
タイトル(英) Positioning nouns in a classification-based thesaurus
サブタイトル(和)
キーワード(1)(和/英) シソーラス / thesaurus
キーワード(2)(和/英) 表意文字 / ideogram
キーワード(3)(和/英) 共起情報 / collocation
キーワード(4)(和/英) 日本語 / Japanese
第 1 著者 氏名(和/英) 中山 拓也 / NAKAYAMA Takuya
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 松本 裕治 / Yuji MATSUMOTO
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 1997/7/25
資料番号 NLC97-23
巻番号(vol) vol.97
号番号(no) 200
ページ範囲 pp.-
ページ数 6
発行日