大会名称 |
---|
2009年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2009 |
発行日 |
2009/8/20 |
セッション番号 |
2D |
セッション名 |
辞書・インデキシング |
講演日 |
2009/09/02 |
講演場所(会議室等) |
D会場(9号館1F 914教室) |
講演番号 |
RD-002 |
タイトル |
重複レコードの多い大規模トライ辞書の圧縮 |
著者名 |
矢田 晋, 森田 和宏, 泓田 正雄, 青江 順一, |
キーワード |
辞書, トライ, DAWG, 大規模, 圧縮 |
抄録 |
トライは文字列の格納に適した木構造であり, 辞書のデータ構造として広く用いられている. 本稿では,重複レコードの多い大規模なトライ辞書の圧縮構造として DAWGが有用であることを示し,効率的な構築アルゴリズムを提案する. 評価実験では,Zipfの法則にあてはまる頻度情報をレコードとするとき, 大規模なDAWG辞書を実用的な時間で構築できることが示された. 提案手法を用いることで,従来より大規模なDAWG辞書の運用が可能となる. |
本文pdf |
PDF download (328KB) |