講演名 2002/7/9
単語親密度に基づく基本的語彙の選定
金杉 友子, 笠原 要, 稲子 希望, 天野 成昭,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 意味に関する言語処理技術の基盤となりうる概念辞書である"常識概念体系"を構築する第一歩として、人々の概念的な思考で共通して利用していると推定される基本的な語の集合("基本的語彙"と呼ぶ)を選定した。選定の対象としては学研国語大辞典(9万5千見出し語)を用い、選定の尺度として、心理実験により評定される単語のなじみ深さを表す単語属性である単語親密度を用いた。過去の研究において12歳児の理解語彙数の推測値が2万5千と報告されており、別の語彙数調査結果から、同数の語彙を成人の94%が知っていると推測される。そこで、基本的語彙数を2万5千程度と定めた。国語辞典の見出し語について、過去の単語親密度に関するデータベースに含まれていない3万3千語の追加の評定実験を行い、9万5千語から親密度が高い2万7千語を基本的語彙として実際に選定した。
抄録(英) As the first step of constructing a dictionary of word concepts, the "Commonsense Concept Database," which will be a base for language processing technologies regarding meaning, we selected basic words which are supposed to be commonly used by Japanese adults. We selected the basic words from a Japanese dictionary in which the number of word entries is about 95,000. In a previous study, the size of the basic words which a Japanese child of twelve years knew was estimated to be 25,000. From the another recent psychological study estimating the number of the vocabulary in Japanese speakers, we were able to estimate that 25,000 of the Japanese basic words were known by 94% of Japanese adults. Therefore, we selected the number of basic words for Commonsense Concept Database to be 25,000. As a measure of selecting the basic word, we used word familiarity ratings. We did farther psychological experiments of rating familiarity of words in the Japanese dictionary which had not been listed in the word familiarity database previously published. Finally, we selected all words with a familiarity rating above five (between seven point scale) which gave us around 27,000 words out of the 95,000 entries of the dictionary.
キーワード(和) 単語親密度 / 基本語 / オントロジー / タクソノミー
キーワード(英) Word Familiarity / basic words / ontology / taxonomy
資料番号 NLC2002-27
発行日

研究会情報
研究会 NLC
開催期間 2002/7/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 単語親密度に基づく基本的語彙の選定
サブタイトル(和)
タイトル(英) Selection of a Basic Vocabulary Based on Word Familiarity Ratings
サブタイトル(和)
キーワード(1)(和/英) 単語親密度 / Word Familiarity
キーワード(2)(和/英) 基本語 / basic words
キーワード(3)(和/英) オントロジー / ontology
キーワード(4)(和/英) タクソノミー / taxonomy
第 1 著者 氏名(和/英) 金杉 友子 / Tomoko KANASUGI
第 1 著者 所属(和/英) NTTアドバンステクノロジ株式会社
NTT Advanced Technology Corporation
第 2 著者 氏名(和/英) 笠原 要 / Kaname KASAHARA
第 2 著者 所属(和/英) 日本電信電話株式会社,NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation
第 3 著者 氏名(和/英) 稲子 希望 / Nozomu INAGO
第 3 著者 所属(和/英) 日本電信電話株式会社,NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation
第 4 著者 氏名(和/英) 天野 成昭 / Shigeaki AMANO
第 4 著者 所属(和/英) 日本電信電話株式会社,NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation
発表年月日 2002/7/9
資料番号 NLC2002-27
巻番号(vol) vol.102
号番号(no) 200
ページ範囲 pp.-
ページ数 6
発行日