大会名称
2010年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2010
発行日
2010/8/20
セッション番号
2Q
セッション名
検索とアルゴリズム検証
講演日
2010/09/07
講演場所(会議室等)
Q会場(ウエスト2号館3F 第5講義室)
講演番号
D-009
タイトル
ZDDを用いた頻出パタン演算によるWebテキストデータからの知識発見とその評価
著者名
岡崎 佑太湊 真一
キーワード
テキストマイニング, ZDD, 頻出パタン抽出
抄録
Web上で日々配信されるテキスト情報はますます増加し,多様化し続けている.
本研究ではそれらのテキストデータから話題性を抽出するために,テキスト中に現れる頻出パタンに着目した.
話題となっている事柄は,その情報が現れる前後で多く言及されていると考えられる.
Web検索の分野ではtf-idfモデルという頻度に基づいた特徴量による解析を用いることが多いが,
本研究ではZDD(ゼロサプレス型二分決定グラフ)と呼ばれるデータ構造を用いた頻出パタン演算により,
時間的変化を含む特徴的な話題語の抽出手法を調べ,従来手法との比較・評価を行った.
本文pdf
PDF download (308.8KB)