講演名 2001/7/9
Simple PCAを用いたベクトル空間情報検索モデルの次元削減
黒岩 眞吾, 柘植 覚, 田仁 宏典, / 獅々堀 正幹, 北 研二,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ベクトル空間モデル(VSM)は情報検索における代表的な検索モデルである.同モデルでは文書が単語の出現頻度に基づくベクトルで表現されるため, そのベクトル空間は一般にスパースかつ高次元となりメモリや検索時間の増大を招くとともに, 文書中に含まれる無意味な単語がノイズ的な影響を及ぼし検索精度を低下させるという問題を生じる.これに対し特異値分解(SVD)を用い次元数を削減した空間で類似度を計算する潜在的意味インデキシング(Latent Semantic Indexing; LSI)が提案され, その効果が報告されている.本稿ではSVDに比べより少ない演算量で近似的に主成分分析を行うことが可能なSimple Principal Component Analysis(SPCA)を次元削減に適用する.MEDLINEコレクションを用いた検索実験を行った結果, SVDと同等以上の検索性能をSPCAにより達成した.
抄録(英) The Vector Space Model (VSM) is a popular information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure. Additionally, computing resources necessary for the storage and processing of such data is enormous. Dimensionality reduction is a way to overcome these problems. Principal Component Analysis (PCA) and Singular Value Decomposition (SVD) are popular techniques for dimensionality reduction based on matrix decomposition. However, such methods consume a large amount of computation resources. In the work described here, we use Simple Principal Component Analysis (SPCA), which is a data-oriented fast method, for dimensionality reduction of the vector space mopdel. Experiments based on the MEDLINE collection showed that SPCA achieved significant improvement compared to the conventional vector space model.
キーワード(和) Simple PCA / 情報検索 / LSI / ベクトル空間モデル / 次元削減
キーワード(英) Simple PCA / Information retrieval / LSI / VSM / Dimensionality reduction
資料番号 NLC2001-17
発行日

研究会情報
研究会 NLC
開催期間 2001/7/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) Simple PCAを用いたベクトル空間情報検索モデルの次元削減
サブタイトル(和)
タイトル(英) Dimensionality Reduction of VectorSpace Model for Information Retrieval using Simple Principal Compornent Analysis
サブタイトル(和)
キーワード(1)(和/英) Simple PCA / Simple PCA
キーワード(2)(和/英) 情報検索 / Information retrieval
キーワード(3)(和/英) LSI / LSI
キーワード(4)(和/英) ベクトル空間モデル / VSM
キーワード(5)(和/英) 次元削減 / Dimensionality reduction
第 1 著者 氏名(和/英) 黒岩 眞吾 / Shingo Kuroiwa
第 1 著者 所属(和/英) 徳島大学 工学部 知能情報工学科
The University of Tokushima
第 2 著者 氏名(和/英) 柘植 覚 / Satoru Tsuge
第 2 著者 所属(和/英) 徳島大学 工学部 知能情報工学科
The University of Tokushima
第 3 著者 氏名(和/英) 田仁 宏典 / Hironori Tani
第 3 著者 所属(和/英) 徳島大学 工学部 知能情報工学科
The University of Tokushima
第 4 著者 氏名(和/英) / 獅々堀 正幹 / Tai Xiaoying
第 4 著者 所属(和/英) 徳島大学 工学部 知能情報工学科
The University of Tokushima
第 5 著者 氏名(和/英) 北 研二 / Masami Shishibori
第 5 著者 所属(和/英) 徳島大学 工学部 知能情報工学科
The University of Tokushima
発表年月日 2001/7/9
資料番号 NLC2001-17
巻番号(vol) vol.101
号番号(no) 189
ページ範囲 pp.-
ページ数 6
発行日