講演名 2011-07-07
日本語未知語のテキストからの自動獲得(知識発見,第1回テキストマイニング・シンポジウム)
村脇 有吾, 黒橋 禎夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 日本語の形態素解析は,テキスト中に出現する形態素があらかじめ辞書に登録されていることを前提としており,辞書に登録されていない未知語は解析誤りの原因となっていた.そのため,新たな分野のテキストを解析する際に,あらかじめ人手で形態素を追加する必要があった.この未知語問題を解決するために,我々はテキストから未知語を自動獲得し,人手の介在なしに語彙を増やして形態素解析を行うという研究を行なっている.本稿では未知語の自動獲得の現状と課題を報告する.
抄録(英) In Japanese morphological analysis, it is usually assumed that words in text are listed in a pre-defined dictionary. Errors are often caused by unknown words, or words not found in the dictionary. As a result, we need to register new words to the dictionary in advance every time we are to process texts from a new domain. To address this problem, we are working on a framework where unknown words are automatically acquired from text and added to the dictionary without manual supervision. In this paper, we report recent progress and remaining problems in unknown word acquisition.
キーワード(和) 形態素解析 / 未知語 / 語彙獲得
キーワード(英) Japanese morphological analysis / unknown word / lexical acquisition
資料番号 NLC2011-8
発行日

研究会情報
研究会 NLC
開催期間 2011/6/30(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 日本語未知語のテキストからの自動獲得(知識発見,第1回テキストマイニング・シンポジウム)
サブタイトル(和)
タイトル(英) Automatic Acquisition of Japanese Unknown Words from Text
サブタイトル(和)
キーワード(1)(和/英) 形態素解析 / Japanese morphological analysis
キーワード(2)(和/英) 未知語 / unknown word
キーワード(3)(和/英) 語彙獲得 / lexical acquisition
第 1 著者 氏名(和/英) 村脇 有吾 / Yugo MURAWAKI
第 1 著者 所属(和/英) 京都大学大学院情報学研究科
Graduate School of Informatics, Kyoto University
第 2 著者 氏名(和/英) 黒橋 禎夫 / Sadao KUROHASHI
第 2 著者 所属(和/英) 京都大学大学院情報学研究科
Graduate School of Informatics, Kyoto University
発表年月日 2011-07-07
資料番号 NLC2011-8
巻番号(vol) vol.111
号番号(no) 119
ページ範囲 pp.-
ページ数 6
発行日