講演名 2005-07-13
固有表現を用いたニュース記事分類手法の提案(クラスタリング, 夏のデータベースワークショップ2005)
戸田 浩之, 片岡 良治, 北川 博之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) コンピュータおよびコンピュータネットワークの発展により, アクセス可能な情報の量が増大している.その中でもニュース記事は, 最新ニュースの閲覧やアーカイブの検索等様々な方法にて利用され, 最も利用されているコンテンツの一つである.なかでも, アーカイブの検索等における, ニュース記事の見方として同一のイベントについての推移を一覧したいという要求がある.つまり, 同じイベントについて書かれている記事をグループ化する事が求められている.我々はこの問題に対して, ニュース記事中の固有表現に着目し, 固有表現を用いた分類を行うことで特定のイベントに関連するニュース記事を集めることができるのではないかと考えた.本稿では, ニュース記事中での固有表現の分布の分析および固有表現を用いた分類実験を行い, 固有表現を用いたイベント特化型の分類の可能性について報告する.
抄録(英) Due to the growth of the Internet, the amount of information accessible to the public has almost exploded. Especially, news articles are intensively used for latest news watching, retrieving interesting information from news archives and so on. In news archive services, there is a demand to group news articles describing the same event. To address this problem, we use Named Entities in news articles to tell which events the articles describe. In this paper, we present the results of experiments to measure the appearance tendency of named entities in news articles and accuracy of clustering taking named entities into consideration, and discuss validity of the proposed approach.
キーワード(和) 情報検索 / 文書分類 / 固有表現 / ニュース記事
キーワード(英) Information Retrieval / Document Clustering / Named Entities / News Articles
資料番号 DE2005-53
発行日

研究会情報
研究会 DE
開催期間 2005/7/6(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 固有表現を用いたニュース記事分類手法の提案(クラスタリング, 夏のデータベースワークショップ2005)
サブタイトル(和)
タイトル(英) Clustering News Articles using Named Entities
サブタイトル(和)
キーワード(1)(和/英) 情報検索 / Information Retrieval
キーワード(2)(和/英) 文書分類 / Document Clustering
キーワード(3)(和/英) 固有表現 / Named Entities
キーワード(4)(和/英) ニュース記事 / News Articles
第 1 著者 氏名(和/英) 戸田 浩之 / Hiroyuki TODA
第 1 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所:筑波大学システム情報工学研究科
NTT Cyber Solutions Laboratories, NTT Corporation:Graduate School of Systems and Information Engineering, University of Tsukuba
第 2 著者 氏名(和/英) 片岡 良治 / Ryoji KATAOKA
第 2 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT Corporation
第 3 著者 氏名(和/英) 北川 博之 / Hiroyuki KITAGAWA
第 3 著者 所属(和/英) 筑波大学システム情報工学研究科:筑波大学計算科学研究センター
Graduate School of Systems and Information Engineering, University of Tsukuba:Center for Computational Sciences, University of Tsukuba
発表年月日 2005-07-13
資料番号 DE2005-53
巻番号(vol) vol.105
号番号(no) 171
ページ範囲 pp.-
ページ数 6
発行日