講演名 2001/7/9
文脈情報を使用した略語の自動復元
寺田 昭, 徳永 健伸,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) テキスト処理において、固有名詞、略語、頭字語などの未知語の処理は難しい問題である。未知語は、情報検索、テキストデータマイニングなどの応用システムや人間の理解に悪影響を与える。特に特定の対象領域に関するテキストでは略語は多用される.本論文では、略語の自動復元について述べる。従来の研究では、略語の復元の為の候補語の選定に辞書を使用していたが、本論文では、同じドメインのテキストで略語をできるだけ含まないようなものを知識源として使用する。候補語の中から正しい復元形を見つけるために、復元対象となる略語の文脈情報と知識源に含まれる復元形の候補語の文脈情報の類似性を使用した。文脈情報とは、語の前後に出現する単語を意味する。ベクトル空間法において、略語および候補語の近似度を文脈情報により計算し、候補語の中から正しい復元形を選定した。航空関係の10,000文書を対象に実験をおこなったところ従来法に比較して精度で約10%の改善を得た.
抄録(英) Unknown words such as proper nouns, abbreviations, and acronyms are a major obstacle in text processing. In particular, abbreviations are often used in specific domains. In this paper, we propose an automatic disabbreviation method using context information. In past research, a dictionary has conventionally been used to search abbreviation expansion candidates for an abbreviation. We use an abbreviation-poor text of the same domain instead of a dictionary. We calculate the plausibility of expansion candidates based on the similarity between the context of a target abbreviation and that of its expansion candidates. The similarity is calculated using the vector space model, in which each vector element consists of surrounding words. Experiments using about 10,000 documents in the aviation domain showed that the proposed method is superior to past methods by 10% in precision.
キーワード(和) 未知語 / 略語 / 文脈情報
キーワード(英) unknown words / abbreviation / context information
資料番号 NLC2001-14
発行日

研究会情報
研究会 NLC
開催期間 2001/7/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 ENG
タイトル(和) 文脈情報を使用した略語の自動復元
サブタイトル(和)
タイトル(英) Automatic disabbreviation by usingcontext information
サブタイトル(和)
キーワード(1)(和/英) 未知語 / unknown words
キーワード(2)(和/英) 略語 / abbreviation
キーワード(3)(和/英) 文脈情報 / context information
第 1 著者 氏名(和/英) 寺田 昭 / Akira Terada
第 1 著者 所属(和/英) 東京工業大学 大学院情報理工学研究科
Department of Computer Science Tokyo Institute of Technology
第 2 著者 氏名(和/英) 徳永 健伸 / Takenobu Tokunaga
第 2 著者 所属(和/英) 東京工業大学 大学院情報理工学研究科
Department of Computer Science Tokyo Institute of Technology
発表年月日 2001/7/9
資料番号 NLC2001-14
巻番号(vol) vol.101
号番号(no) 189
ページ範囲 pp.-
ページ数 7
発行日