講演名 | 1995/7/21 シソーラスを利用した言語データ最適一般化アルゴリズム 田中 英輝, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 自然言語処理に利用するための規則をコーパスから学習する研究が最近盛んになっている.これらの研究では,得られた規則の適用範囲をいかに一般化するかが大きな課題となる.なぜなら,コーパスから直接学習される規則はそのままでは適用範囲が極端に狭いからである.現在はこの問題を解決するためにシソーラスを利用した手法が試みられている.このとき,シソーラス上のどの概念で規則を一般化するかが問題となる.しかしシソーラス上のノードの選び方は,組合せ的に爆発を起こすためその決定は容易ではない.本稿では,この問題を線形時間で解く基本的なアルゴリズムを提案する.本稿の問題は一般的に言うと帰納学習の分野で問題とされていた「構造化属性」の問題に属する.さらに,決定木の最適部分木を求める問題とも等しい. |
抄録(英) | The proper treatment of structured attributes in inductive learning is getting much attention as this learning technique is now frequently applied to the knowledge extraction in natural language processing. In this context, the problem is finding a set of thesaurus nodes that maximally generalizes words in the learning source, but causes minimum errors. The number of candidate node sets, however, explodes as the thesaurus size increases, and no efficient algorithm has been discovered so far. In this paper, we propose the algorithm T^* which can find the optimal node sets in linear-time. This algorithm first converts the thesaurus into a directed acyclic graph changing this difficult problem into a shortest path problem with a graph where we can use an efficient algorithm. We then show that T^* can also be used to find the optimally pruned decision tree. |
キーワード(和) | 機械学習 / 構造化属性 / 一般化 / シソーラス / コーパス / 機械翻訳 |
キーワード(英) | Machine Learning / Structured Attributes / Generalization / Thesaurus / Corpus / Machine Translation |
資料番号 | |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 1995/7/21(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | シソーラスを利用した言語データ最適一般化アルゴリズム |
サブタイトル(和) | |
タイトル(英) | A Linear-Time Algorithm for Optimal Generalization of Language Data |
サブタイトル(和) | |
キーワード(1)(和/英) | 機械学習 / Machine Learning |
キーワード(2)(和/英) | 構造化属性 / Structured Attributes |
キーワード(3)(和/英) | 一般化 / Generalization |
キーワード(4)(和/英) | シソーラス / Thesaurus |
キーワード(5)(和/英) | コーパス / Corpus |
キーワード(6)(和/英) | 機械翻訳 / Machine Translation |
第 1 著者 氏名(和/英) | 田中 英輝 / Hideki Tanaka |
第 1 著者 所属(和/英) | NHK放送技術研究所先端制作技術研究部 NHK Science and Technical Research Laboratories |
発表年月日 | 1995/7/21 |
資料番号 | |
巻番号(vol) | vol.95 |
号番号(no) | 169 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |