講演抄録/キーワード |
講演名 |
2011-03-11 09:00
メタデータの頻度差を利用した階層的仮想フォルダ自動生成 ○大峡光晴・松本俊子・岩田泰明・小野山 隆(日立ソリューションズ) PRMU2010-266 |
抄録 |
(和) |
ファイルサーバ内に格納された業務文書の検索性の向上及び再利用の促進を目的として,検索条件を割り当てた仮想的なフォルダ分類を自動的に行う手法を提案する.本手法の特徴は,メタデータ中からキーワードを抽出し,キーワードの頻度分布を利用して適切な粒度で階層的な分類を行うことである.2160個の実業務文書に対して本手法を適用した結果,手作業で作成した分類と比較してprecision 97%,recall 86%を実現し,さらに手作業で仮想フォルダを作成した際には予期しなかった専門用語も抽出することができた.このことから本手法の有効性を確認した. |
(英) |
To achieve easy search and reuse of business documents stored in a file server, we propose a new clustering method to generate virtual folders which are implemented as search criteria. Our method has two features; 1) it extracts keywords from metadata, 2) it generates hierarchical clusters of appropriate size using metadata frequency difference. The experimental result demonstrates that our method achieved 97% precision and 86% recall. Moreover, it was able to extract unexpected keywords. |
キーワード |
(和) |
キーワード抽出 / メタデータ / 文書分類 / 仮想フォルダ / / / / |
(英) |
keyword extraction / metadata / document clustering / virtual folder / / / / |
文献情報 |
信学技報, vol. 110, no. 467, PRMU2010-266, pp. 171-176, 2011年3月. |
資料番号 |
PRMU2010-266 |
発行日 |
2011-03-03 (PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2010-266 |