講演名 | 2006-07-27 ウェブ・ページ内での共起を使った同形異音語処理(形態素・固有表現) 隅田 英一郎, 菅谷 史昭, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本論文では、単語の曖昧性解消に必要な知識をウェブ・ページ上の単語周辺の情報に求め、これを学習データとして分類器を構成する手法を提案した。日本語固有名詞の同形異音語を対象とした読みの決定という問題に提案手法を適用して高い精度を確認した。さらに、頭字語とその定義の対応付けという別の問題でも有効性を確認した。学習データを取得する際に課さざるを得ない量的制約に起因して学習データと実データの分布に大きくズレが生じる場合があり性能が劣化することが観測されたが、これは今後の課題と考えている。 |
抄録(英) | The authors claim that information around a word on the Web is useful for solving ambiguity related to the word. The proposed method learns a classifier based on the information. Appling the method to heteronym disambiguation demonstrated a high accuracy. Furthermore, it was effective for acronym disambiguation. However, when distribution of training data and that on the Web are largely different, we observed degradation, which is one of future works to be tackled. |
キーワード(和) | 同形異音語 / 発音 / 頭字語 / 多義解消 / 音声処理 / ウェブに基づく自然言語処理 |
キーワード(英) | Heteronym / Pronunciation / Acronym / Word Sense Disambiguation / Speech Processing / Web-based NLP |
資料番号 | NLC2006-3 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2006/7/20(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | ウェブ・ページ内での共起を使った同形異音語処理(形態素・固有表現) |
サブタイトル(和) | |
タイトル(英) | Heteronym disambiguation based on co-occurrence within Web page |
サブタイトル(和) | |
キーワード(1)(和/英) | 同形異音語 / Heteronym |
キーワード(2)(和/英) | 発音 / Pronunciation |
キーワード(3)(和/英) | 頭字語 / Acronym |
キーワード(4)(和/英) | 多義解消 / Word Sense Disambiguation |
キーワード(5)(和/英) | 音声処理 / Speech Processing |
キーワード(6)(和/英) | ウェブに基づく自然言語処理 / Web-based NLP |
第 1 著者 氏名(和/英) | 隅田 英一郎 / Eiichiro Sumita |
第 1 著者 所属(和/英) | NiCT & ATR |
第 2 著者 氏名(和/英) | 菅谷 史昭 / Fumiaki Sugaya |
第 2 著者 所属(和/英) | KDDI研究所 KDDI R&D Labs |
発表年月日 | 2006-07-27 |
資料番号 | NLC2006-3 |
巻番号(vol) | vol.106 |
号番号(no) | 190 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |