講演名 2015-02-05
固有ベクトル法による類似文書抽出(第6回テキストマイニング・シンポジウム)
加藤 翔子, 斉藤 和巳, 風間 一洋,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,文書単語類似度行列の固有ベクトルを求めることで,大規模文書群から類似文書を抽出する.より詳細には,ネットワークのコア部抽出法であるSpectral-Relaxation(SR)法を拡張したWeighted-SR(WSR)法を提案し,さらにLSA法やMDA法を土台として変形させたLSA-WSR法,MDS-WSR法を考える.Yahoo!ニュースのデータセットを用いた評価実験で,各手法の抽出結果を比較し,複数の話題が混在したコア部の存在や,同じ話題が複数コア部に分かれて抽出されることを示す.また,任意のパラメータηを大きくすることで抽出文書数が小さくなり,より類似した文書群の絞り込みが可能となることも明らかにする.
抄録(英) In this paper, we extract some similar documents from large number of text documents by calculating eigenvector of document-term similarlity matrics. Namely, we propose a Weighted-SR (WSR) method based on the Spectral-Relaxation (SR) method. The SR method is one of core extraction methods of complex networks. We also consider LSA-WSR and MDS-WSR methods based on LSA and MDS. In our experiments using a text document dataset from Yahoo! News, We demonstrate that these methods extract documents which consist of mixed topics and split one topic into some core portions. We also show that the number of extracted documents is decreased and similar documents narrowed down by increasing η which is an arbitrary parameter.
キーワード(和) 文書抽出 / コア部分析 / 固有ベクトル / トピック抽出
キーワード(英) Documents Extraction / Core Analysis / Eigenvector / Topic Extraction
資料番号 NLC2014-46
発行日

研究会情報
研究会 NLC
開催期間 2015/1/29(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 固有ベクトル法による類似文書抽出(第6回テキストマイニング・シンポジウム)
サブタイトル(和)
タイトル(英) Extracting Similar Documents by Eigenvector Algorithm
サブタイトル(和)
キーワード(1)(和/英) 文書抽出 / Documents Extraction
キーワード(2)(和/英) コア部分析 / Core Analysis
キーワード(3)(和/英) 固有ベクトル / Eigenvector
キーワード(4)(和/英) トピック抽出 / Topic Extraction
第 1 著者 氏名(和/英) 加藤 翔子 / Shoko KATO
第 1 著者 所属(和/英) 静岡県立大学経営情報イノベーション研究科
Graduate School of Management and Information of Innovation, University of Shizuoka
第 2 著者 氏名(和/英) 斉藤 和巳 / Kazumi SAITO
第 2 著者 所属(和/英) 静岡県立大学経営情報イノベーション研究科
Graduate School of Management and Information of Innovation, University of Shizuoka
第 3 著者 氏名(和/英) 風間 一洋 / Kazuhiko KAZAMA
第 3 著者 所属(和/英) 和歌山大学システム工学部
Faculty of Systems Engineering, Wakayama University
発表年月日 2015-02-05
資料番号 NLC2014-46
巻番号(vol) vol.114
号番号(no) 444
ページ範囲 pp.-
ページ数 6
発行日