講演名 1995/7/21
シソーラスを利用した言語データ最適一般化アルゴリズム
田中 英輝,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 自然言語処理に利用するための規則をコーパスから学習する研究が最近盛んになっている.これらの研究では,得られた規則の適用範囲をいかに一般化するかが大きな課題となる.なぜなら,コーパスから直接学習される規則はそのままでは適用範囲が極端に狭いからである.現在はこの問題を解決するためにシソーラスを利用した手法が試みられている.このとき,シソーラス上のどの概念で規則を一般化するかが問題となる.しかしシソーラス上のノードの選び方は,組合せ的に爆発を起こすためその決定は容易ではない.本稿では,この問題を線形時間で解く基本的なアルゴリズムを提案する.本稿の問題は一般的に言うと帰納学習の分野で問題とされていた「構造化属性」の問題に属する.さらに,決定木の最適部分木を求める問題とも等しい.
抄録(英) The proper treatment of structured attributes in inductive learning is getting much attention as this learning technique is now frequently applied to the knowledge extraction in natural language processing. In this context, the problem is finding a set of thesaurus nodes that maximally generalizes words in the learning source, but causes minimum errors. The number of candidate node sets, however, explodes as the thesaurus size increases, and no efficient algorithm has been discovered so far. In this paper, we propose the algorithm T^* which can find the optimal node sets in linear-time. This algorithm first converts the thesaurus into a directed acyclic graph changing this difficult problem into a shortest path problem with a graph where we can use an efficient algorithm. We then show that T^* can also be used to find the optimally pruned decision tree.
キーワード(和) 機械学習 / 構造化属性 / 一般化 / シソーラス / コーパス / 機械翻訳
キーワード(英) Machine Learning / Structured Attributes / Generalization / Thesaurus / Corpus / Machine Translation
資料番号
発行日

研究会情報
研究会 NLC
開催期間 1995/7/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) シソーラスを利用した言語データ最適一般化アルゴリズム
サブタイトル(和)
タイトル(英) A Linear-Time Algorithm for Optimal Generalization of Language Data
サブタイトル(和)
キーワード(1)(和/英) 機械学習 / Machine Learning
キーワード(2)(和/英) 構造化属性 / Structured Attributes
キーワード(3)(和/英) 一般化 / Generalization
キーワード(4)(和/英) シソーラス / Thesaurus
キーワード(5)(和/英) コーパス / Corpus
キーワード(6)(和/英) 機械翻訳 / Machine Translation
第 1 著者 氏名(和/英) 田中 英輝 / Hideki Tanaka
第 1 著者 所属(和/英) NHK放送技術研究所先端制作技術研究部
NHK Science and Technical Research Laboratories
発表年月日 1995/7/21
資料番号
巻番号(vol) vol.95
号番号(no) 169
ページ範囲 pp.-
ページ数 6
発行日