講演名 | 2007/7/17 テンプレートを構成する名詞のKatzモデルによる抽出の試み(用語・情報抽出) 藤原 大輔, 高瀬 暁央, 梅村 恭司, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 文書の雛形をテンプレートと呼ぶが,あるテンプレート内で使用される単語をテンプレートの形を知ることなく抽出するという問題を扱う.単語の分布として良く知られているものに,Katz K mixtureモデルがある.このKatz K mixtureモデルは,単語が文書中で繰り返し出現する条件付確率は減衰係数によって決められると仮定している.本研究では,このKatz K mixtureモデルに従わない固有名詞が持つ特徴とテンプレートの関係について分析し,その結果,モデルに合致しないものがテンプレート内で使用される単語の候補となり得ることが分かった. |
抄録(英) | A template is a fixed format of certain documents. We deal here with the problem of extraction words used in templates without knowing form of the templates. The Katz K mixture model is well known as a distribution model of keywords. In this model, basic assumption is that the conditional probabilities of repeats for a given word are determined by a decay factor. In this study, we analyze relations of a template and proper nouns which do not obey the Katz K mixture model. As a result, we have found that the Katz model is useful to detect nouns that consitute templates. |
キーワード(和) | Katzモデル / 統計的言語処理 / テンプレート / 単語頻度 / 固有名詞 |
キーワード(英) | the Katz K mixture model / statistical natural language processing / template / term frequency / proper noun |
資料番号 | NLC2007-25 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2007/7/17(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | テンプレートを構成する名詞のKatzモデルによる抽出の試み(用語・情報抽出) |
サブタイトル(和) | |
タイトル(英) | Extracting Nouns that Constitute Templates by the Katz Model |
サブタイトル(和) | |
キーワード(1)(和/英) | Katzモデル / the Katz K mixture model |
キーワード(2)(和/英) | 統計的言語処理 / statistical natural language processing |
キーワード(3)(和/英) | テンプレート / template |
キーワード(4)(和/英) | 単語頻度 / term frequency |
キーワード(5)(和/英) | 固有名詞 / proper noun |
第 1 著者 氏名(和/英) | 藤原 大輔 / Daisuke FUJIHARA |
第 1 著者 所属(和/英) | 豊橋技術科学大学 Toyohashi University of Technology |
第 2 著者 氏名(和/英) | 高瀬 暁央 / Akihiro TAKASE |
第 2 著者 所属(和/英) | 豊橋技術科学大学 Toyohashi University of Technology |
第 3 著者 氏名(和/英) | 梅村 恭司 / Kyoji UMEMURA |
第 3 著者 所属(和/英) | 豊橋技術科学大学 Toyohashi University of Technology |
発表年月日 | 2007/7/17 |
資料番号 | NLC2007-25 |
巻番号(vol) | vol.107 |
号番号(no) | 158 |
ページ範囲 | pp.- |
ページ数 | 5 |
発行日 |