講演抄録/キーワード |
講演名 |
2008-06-19 15:40
単独記事フィルタリングを用いた時系列ニュース記事分類法の提案 ○中村智浩・平野孝佳・平手勇宇(早大)・山名早人(早大/NII) DE2008-11 PRMU2008-29 |
抄録 |
(和) |
インターネット上のニュース記事を対象としたクラスタリングは,関連記事や最新話題語などの検出を目的として,アメリカのTDTプロジェクトをはじめ、広く研究されている.ニュース記事において、他記事との関連性を持たない単独記事は頻出するが、従来のクラスタリング手法では単独のクラスタとして検出することが困難である.そこで本稿では,事前に固有名詞情報や地理的情報などを用いて単独記事を検出し,検出した単独記事をニュース記事集合から除いたうえでクラスタリングする手法を提案する.評価では,半年分の日本のニュース2136記事を用いた.最短距離法でクラスタリングする場合,本手法を適用することにより,精度を10.2%改善できると共に計算時間を約1/3に抑えることができた. |
(英) |
Clustering of internet news articles makes it possible to detect various useful information, for example, related articles, and latest topic words. From the TDT project down, this area is widely researched. Conventional clustering methods have difficulties to detect single article as a single cluster even though many single articles exists. In this paper, we propose a method to cluster news articles that exclude single articles in advance by using proper noun information, topographic information and other characteristics between single and non-single articles. In evaluation, we use half a year Japanese news articles. Compared to the Single-Link Method, which alone is difficult to judge articles single, our proposing method improves precision 10.2% and reduces the computation time to approximately a third. |
キーワード |
(和) |
文書クラスタリング / ニュース記事 / / / / / / |
(英) |
Document Clustering / News Articles / / / / / / |
文献情報 |
信学技報, vol. 108, no. 93, DE2008-11, pp. 59-64, 2008年6月. |
資料番号 |
DE2008-11 |
発行日 |
2008-06-12 (DE, PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
DE2008-11 PRMU2008-29 |
研究会情報 |
研究会 |
PRMU DE |
開催期間 |
2008-06-19 - 2008-06-20 |
開催地(和) |
小樽市民会館 |
開催地(英) |
Otaru-Shimin-Kaikan |
テーマ(和) |
膨大なデータから学ぶもの |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
DE |
会議コード |
2008-06-PRMU-DE |
本文の言語 |
日本語 |
タイトル(和) |
単独記事フィルタリングを用いた時系列ニュース記事分類法の提案 |
サブタイトル(和) |
|
タイトル(英) |
Temporal Clustering of Internet News Articles with Excluding Single Articles |
サブタイトル(英) |
|
キーワード(1)(和/英) |
文書クラスタリング / Document Clustering |
キーワード(2)(和/英) |
ニュース記事 / News Articles |
キーワード(3)(和/英) |
/ |
キーワード(4)(和/英) |
/ |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
中村 智浩 / Tomohiro Nakamura / ナカムラ トモヒロ |
第1著者 所属(和/英) |
早稲田大学 (略称: 早大)
Waseda University (略称: Waseda Univ.) |
第2著者 氏名(和/英/ヨミ) |
平野 孝佳 / Takayoshi Hirano / ヒラノ タカヨシ |
第2著者 所属(和/英) |
早稲田大学 (略称: 早大)
Waseda University (略称: Waseda Univ.) |
第3著者 氏名(和/英/ヨミ) |
平手 勇宇 / Yu Hirate / ヒラテ ユウ |
第3著者 所属(和/英) |
早稲田大学 (略称: 早大)
Waseda University (略称: Waseda Univ.) |
第4著者 氏名(和/英/ヨミ) |
山名 早人 / Hayato Yamana / ヤマナ ハヤト |
第4著者 所属(和/英) |
早稲田大学/NII (略称: 早大/NII)
Waseda University/NII (略称: Waseda Univ./NII) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2008-06-19 15:40:00 |
発表時間 |
30分 |
申込先研究会 |
DE |
資料番号 |
DE2008-11, PRMU2008-29 |
巻番号(vol) |
vol.108 |
号番号(no) |
no.93(DE), no.94(PRMU) |
ページ範囲 |
pp.59-64 |
ページ数 |
6 |
発行日 |
2008-06-12 (DE, PRMU) |
|