大会名称
2009年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2009
発行日
2009/8/20
セッション番号
2D
セッション名
辞書・インデキシング
講演日
2009/09/02
講演場所(会議室等)
D会場(9号館1F 914教室)
講演番号
RD-002
タイトル
重複レコードの多い大規模トライ辞書の圧縮
著者名
矢田 晋森田 和宏泓田 正雄青江 順一
キーワード
辞書, トライ, DAWG, 大規模, 圧縮
抄録
トライは文字列の格納に適した木構造であり,
辞書のデータ構造として広く用いられている.
本稿では,重複レコードの多い大規模なトライ辞書の圧縮構造として
DAWGが有用であることを示し,効率的な構築アルゴリズムを提案する.
評価実験では,Zipfの法則にあてはまる頻度情報をレコードとするとき,
大規模なDAWG辞書を実用的な時間で構築できることが示された.
提案手法を用いることで,従来より大規模なDAWG辞書の運用が可能となる.
本文pdf
PDF download (328KB)