講演抄録/キーワード |
講演名 |
2015-03-05 10:30
非負値行列因子分解を利用した文書クラスタリング手法の提案 ○小西葉月・小川貴英(津田塾大) LOIS2014-65 |
抄録 |
(和) |
近年,インターネットを利用して情報収集する機会が増えている.しかし,検索結果が膨大かつ重複しているため,自分が意図する情報にたどり着けないことや現在どのような話題があるのか把握できないことがある.そこで本研究では,文書クラスタリングにて話題毎に検索結果の分類を行う.文書クラスタリングには次元縮約を応用した手法である非負値行列因子分解を利用する.しかし,非負値行列因子分解には,基底数決定の問題と解が一意に決まらない問題がある.そこで本研究では,基底数を2とし,分解を繰り返して残った文書集合を最終的にクラスタとすることで基底数決定の自動化を行った.また,文書とクラスタの関連度,索引語クラスタの関連度を用いてクラスタリング評価関数を導入し,クラスタリング最適解を決定した.提案手法の検証は,リアルタイム性があり話題が豊富なTwitterで行った. |
(英) |
In recent years, people have more opportunities to gather information using the Internet. But user can’t get information as a user intends or user can’t grasp current topics because the result is enormous and overlap. This paper classifies search results in every topic by Document Clustering and uses Non-negative Matrix Factorization (NMF) in Document Clustering. Unfortunately NFM needs the number of clusters before calculation and gives many answers. As a solution for this problem, this paper proposes that resolution is repeated and cluster evaluate using association between document and cluster degree and between word and cluster degree. |
キーワード |
(和) |
文書クラスタリング / 非負値行列因子分解 / Twitter / / / / / |
(英) |
Document Clustering / Non-necative Matrix Factorization / Twitter / / / / / |
文献情報 |
信学技報, vol. 114, no. 500, LOIS2014-65, pp. 25-30, 2015年3月. |
資料番号 |
LOIS2014-65 |
発行日 |
2015-02-26 (LOIS) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
LOIS2014-65 |