講演名 2018-02-17
専門分野の関連語抽出一手法
須永 聡(NTT), 齋藤 鎮成(NTT), 宮尾 浩(NTT), 原田 山人(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) さまざまな情報検索において、関連語辞書が存在すれば、検索語の連想展開やあいまい検索などに活用できるため有効である。しかし、関連語辞書を人手により構築し更新する作業はコストがかかる。そこで、電子化された文書ファイルから言葉の共起を用いて自動的に関連語を抽出することに取り組んでいる。共起による関連語抽出では、関連性の低いまたは関連性のない言葉(不正解関連語)が抽出される問題と抽出されない正解関連語がある、二つの問題がある。前者の問題に対しては、不正解関連語の特色を見出しそれらの除外によって解決を図ることができるが、後者の問題は不正解関連語を除外する以前に、正解関連語を含むように抽出して共起語数を増やす方策が必要であり先決である。本稿では共起語の数を増やすための一手法として同義語・類義語からの共起による関連語候補抽出方法を提案する。実験による本提案手法の有効性および考察として抽出される正解関連語の範囲と同義語・類義語の意味する範囲とに同様の関係性が表れることについて述べる。
抄録(英) In a variety of information retrieval, if a related term dictionary exists, it is effective because it can be used for associative retrieval and fuzzy search. However, it is costly to manually construct and update a related term dictionary. Therefore, we are working on automatically extracting relevant words using co-occurrence of words from document files. In related word extraction by co-occurrence, there are two problems. These problems are that unrelated or irrelevant words (incorrect related words) are extracted and there are unextracted correct related words. For the former problem, we are working on finding the features of incorrect related words and solve them by excluding them. However, the latter problem requires a strategy to increase the number of cooccurrent words to be extracted so as to include correct related words before excluding incorrect related terms. In this paper, as a method to increase the number of co-occurring words, we propose a method for extracting related word candidates by co-occurrence from synonyms. The effectiveness of the proposed method by experiment is shown. In addition, as a consideration, we explain that similar relation appears between the range of correct related words extracted and the range meaning of synonyms.
キーワード(和) 全文検索 / 情報抽出 / 関連語 / 共起
キーワード(英) Full-text Search / Information Extraction / Related Terms / Co-occurrence
資料番号 NLC2017-50
発行日 2018-02-09 (NLC)

研究会情報
研究会 NLC / IPSJ-IFAT
開催期間 2018/2/16(から2日開催)
開催地(和) ティーオージー会議室
開催地(英) T.O.G.
テーマ(和) 第12回 テキストアナリティクス・シンポジウム
テーマ(英) The Twelveth Text Analytics Symposium
委員長氏名(和) 金山 博(日本IBM)
委員長氏名(英) Hiroshi Kanayama(IBM)
副委員長氏名(和) 榊 剛史(ホットリンク) / 嶋田 和孝(九工大)
副委員長氏名(英) Takeshi Sakaki(Hottolink) / Kazutaka Shimada(Kyushu Inst. of Tech.)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 東中 竜一郎(NTT)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Ryuichiro Higashinaka(NTT)
幹事補佐氏名(和) 吉田 光男(豊橋技科大) / 小早川 健(NICT)
幹事補佐氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Takeshi Kobayakawa(NICT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Information Fundamentals and Access Technologies
本文の言語 JPN
タイトル(和) 専門分野の関連語抽出一手法
サブタイトル(和)
タイトル(英) A Method of Extracting Related Terms in a Specialty Area
サブタイトル(和)
キーワード(1)(和/英) 全文検索 / Full-text Search
キーワード(2)(和/英) 情報抽出 / Information Extraction
キーワード(3)(和/英) 関連語 / Related Terms
キーワード(4)(和/英) 共起 / Co-occurrence
第 1 著者 氏名(和/英) 須永 聡 / Satoshi Sunaga
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 2 著者 氏名(和/英) 齋藤 鎮成 / Tsunenari Saitoh
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 3 著者 氏名(和/英) 宮尾 浩 / Hiroshi Miyao
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
第 4 著者 氏名(和/英) 原田 山人 / Yamato Harada
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NTT Corporation(略称:NTT)
発表年月日 2018-02-17
資料番号 NLC2017-50
巻番号(vol) vol.117
号番号(no) NLC-439
ページ範囲 pp.51-56(NLC),
ページ数 6
発行日 2018-02-09 (NLC)