講演名 2006-07-27
ウェブ・ページ内での共起を使った同形異音語処理(形態素・固有表現)
隅田 英一郎, 菅谷 史昭,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では、単語の曖昧性解消に必要な知識をウェブ・ページ上の単語周辺の情報に求め、これを学習データとして分類器を構成する手法を提案した。日本語固有名詞の同形異音語を対象とした読みの決定という問題に提案手法を適用して高い精度を確認した。さらに、頭字語とその定義の対応付けという別の問題でも有効性を確認した。学習データを取得する際に課さざるを得ない量的制約に起因して学習データと実データの分布に大きくズレが生じる場合があり性能が劣化することが観測されたが、これは今後の課題と考えている。
抄録(英) The authors claim that information around a word on the Web is useful for solving ambiguity related to the word. The proposed method learns a classifier based on the information. Appling the method to heteronym disambiguation demonstrated a high accuracy. Furthermore, it was effective for acronym disambiguation. However, when distribution of training data and that on the Web are largely different, we observed degradation, which is one of future works to be tackled.
キーワード(和) 同形異音語 / 発音 / 頭字語 / 多義解消 / 音声処理 / ウェブに基づく自然言語処理
キーワード(英) Heteronym / Pronunciation / Acronym / Word Sense Disambiguation / Speech Processing / Web-based NLP
資料番号 NLC2006-3
発行日

研究会情報
研究会 NLC
開催期間 2006/7/20(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) ウェブ・ページ内での共起を使った同形異音語処理(形態素・固有表現)
サブタイトル(和)
タイトル(英) Heteronym disambiguation based on co-occurrence within Web page
サブタイトル(和)
キーワード(1)(和/英) 同形異音語 / Heteronym
キーワード(2)(和/英) 発音 / Pronunciation
キーワード(3)(和/英) 頭字語 / Acronym
キーワード(4)(和/英) 多義解消 / Word Sense Disambiguation
キーワード(5)(和/英) 音声処理 / Speech Processing
キーワード(6)(和/英) ウェブに基づく自然言語処理 / Web-based NLP
第 1 著者 氏名(和/英) 隅田 英一郎 / Eiichiro Sumita
第 1 著者 所属(和/英)
NiCT & ATR
第 2 著者 氏名(和/英) 菅谷 史昭 / Fumiaki Sugaya
第 2 著者 所属(和/英) KDDI研究所
KDDI R&D Labs
発表年月日 2006-07-27
資料番号 NLC2006-3
巻番号(vol) vol.106
号番号(no) 190
ページ範囲 pp.-
ページ数 6
発行日