講演抄録/キーワード |
講演名 |
2010-12-10 09:30
大規模データに対する識別子独立型の特徴選択 ○柳堀慎吾・工藤峰一(北大) PRMU2010-139 |
抄録 |
(和) |
本研究では,文書分類などの大規模データに対して,実用的な時間で行える識別子独立型の特徴選択を検討する.
二クラス,二値特徴に限定して,有効な少数の特徴の組み合わせを信頼区間を考慮して求めることで比較的効率の良い方法を提案する.
特徴数およびサンプル数がともに十万を越える規模の文書分類問題に対して行った比較実験では,提案手法により最適な特徴集合に近い特徴集合が得られることが示された. |
(英) |
In this study, we attempt to perform classifier-independent feature selection (CIFS) for large-scale data such as text classification.
Under the restriction of two-class and binary features, we propose an efficient method that selects a few valid features by using confidence bounds.
In comparative experiments for dataset with over 100,000 features and over 100,000 samples, the proposal method obtained a near optimal feature subset. |
キーワード |
(和) |
特徴選択 / 識別子独立型 / 大規模データ / 信頼区間 / 文書分類 / / / |
(英) |
Feature Selection / Classifier-Independent / Large-Scale Data / Confidence Bound / Text Classification / / / |
文献情報 |
信学技報, vol. 110, no. 330, PRMU2010-139, pp. 73-78, 2010年12月. |
資料番号 |
PRMU2010-139 |
発行日 |
2010-12-02 (PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2010-139 |