講演名 2006-05-18
語義の違いを検出するための大規模コーパス処理手法の検討(「自動化:推論,発見,学習,データマイニング」及び一般)
相澤 彰子,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では、タグなし自然言語文による大規模コーパスからの類語辞書自動構築法について検討する。まず、係り受け解析から得られる語の共起情報に基づき類語や例文を抽出するための手法の概要について述べる。次に、新聞記事コーパスを例にとり、コーパスが大規模になった場合の影響や同時クラスタリング法の効果を調べる。最後に実際にコーパスから構築した辞書の例を示す。
抄録(英) This paper focuses on issues in automatic extraction of synonyms from large scale untagged corpora. In the paper, a coocurrence analysis-based method is first introduced where synonyms and sample phrases are extracted simultaneously utilizing the result of word dependency analysis. Next, the influence of the corpus scale to the extraction result is examined using newspaper collections. A demonstrative example of the extracted dictionary is also shown.
キーワード(和) テキストコーパス / 類語辞書自動構築 / 語の共起情報 / テキストマイニング
キーワード(英) text corpora / automatic construction of synonymous words dictionaries / cooccurrencies of words / text mining
資料番号 AI2006-11
発行日

研究会情報
研究会 AI
開催期間 2006/5/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 語義の違いを検出するための大規模コーパス処理手法の検討(「自動化:推論,発見,学習,データマイニング」及び一般)
サブタイトル(和)
タイトル(英) A method for detecting semantic diversity of words across large-scale text corpora
サブタイトル(和)
キーワード(1)(和/英) テキストコーパス / text corpora
キーワード(2)(和/英) 類語辞書自動構築 / automatic construction of synonymous words dictionaries
キーワード(3)(和/英) 語の共起情報 / cooccurrencies of words
キーワード(4)(和/英) テキストマイニング / text mining
第 1 著者 氏名(和/英) 相澤 彰子 / AKIKO AIZAWA
第 1 著者 所属(和/英) 国立情報学研究所:総合研究大学院大学
National Institute of Informatics:Graduate School for Advanced Studies
発表年月日 2006-05-18
資料番号 AI2006-11
巻番号(vol) vol.106
号番号(no) 38
ページ範囲 pp.-
ページ数 6
発行日