講演名 | 2011-03-11 メタデータの頻度差を利用した階層的仮想フォルダ自動生成(テーマセッション,文字・文書の認識と理解) 大峡 光晴, 松本 俊子, 岩田 泰明, 小野山 隆, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | ファイルサーバ内に格納された業務文書の検索性の向上及び再利用の促進を目的として,検索条件を割り当てた仮想的なフォルダ分類を自動的に行う手法を提案する.本手法の特徴は,メタデータ中からキーワードを抽出し,キーワードの頻度分布を利用して適切な粒度で階層的な分類を行うことである.2160個の実業務文書に対して本手法を適用した結果,手作業で作成した分類と比較してprecision 97%, recall 86%を実現し,さらに手作業で仮想フォルダを作成した際には予期しなかった専門用語も抽出することができた.このことから本手法の有効性を確認した. |
抄録(英) | To achieve easy search and reuse of business documents stored in a file server, we propose a new clustering method to generate virtual folders which are implemented as search criteria. Our method has two features ; 1) it extracts keywords from metadata, 2) it generates hierarchical clusters of appropriate size using metadata frequency difference. The experimental result demonstrates that our method achieved 97% precision and 86% recall. Moreover, it was able to extract unexpected keywords. |
キーワード(和) | キーワード抽出 / メタデータ / 文書分類 / 仮想フォルダ |
キーワード(英) | keyword extraction / metadata / document clustering / virtual folder |
資料番号 | PRMU2010-266 |
発行日 |
研究会情報 | |
研究会 | PRMU |
---|---|
開催期間 | 2011/3/3(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Pattern Recognition and Media Understanding (PRMU) |
---|---|
本文の言語 | JPN |
タイトル(和) | メタデータの頻度差を利用した階層的仮想フォルダ自動生成(テーマセッション,文字・文書の認識と理解) |
サブタイトル(和) | |
タイトル(英) | Generating Hierarchical Virtual Folder by Metadata Frequency Difference |
サブタイトル(和) | |
キーワード(1)(和/英) | キーワード抽出 / keyword extraction |
キーワード(2)(和/英) | メタデータ / metadata |
キーワード(3)(和/英) | 文書分類 / document clustering |
キーワード(4)(和/英) | 仮想フォルダ / virtual folder |
第 1 著者 氏名(和/英) | 大峡 光晴 / Mitsuharu OBA |
第 1 著者 所属(和/英) | 株式会社日立ソリューションズ R&D Department 2, Hitachi Solutions, Ltd. |
第 2 著者 氏名(和/英) | 松本 俊子 / Toshiko MATSUMOTO |
第 2 著者 所属(和/英) | 株式会社日立ソリューションズ R&D Department 2, Hitachi Solutions, Ltd. |
第 3 著者 氏名(和/英) | 岩田 泰明 / Yasuaki IWATA |
第 3 著者 所属(和/英) | 株式会社日立ソリューションズ R&D Department 2, Hitachi Solutions, Ltd. |
第 4 著者 氏名(和/英) | 小野山 隆 / Takashi ONOYAMA |
第 4 著者 所属(和/英) | 株式会社日立ソリューションズ R&D Department 2, Hitachi Solutions, Ltd. |
発表年月日 | 2011-03-11 |
資料番号 | PRMU2010-266 |
巻番号(vol) | vol.110 |
号番号(no) | 467 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |