大会名称
2009年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2009
発行日
2009/8/20
セッション番号
2D
セッション名
辞書・インデキシング
講演日
2009/09/02
講演場所(会議室等)
D会場(9号館1F 914教室)
講演番号
D-001
タイトル
大規模並列全文検索エンジンにおける多言語検索対応索引方式
著者名
中村 隆顕山岸 義徳郡 光則
キーワード
全文検索, 多言語, N-gram索引
抄録
大規模データの高速検索を特徴とする全文検索エンジンにおいて、多言語文書の検索に適した索引方式を開発した。
Shift-JISなどの日本語文字コードを基準にしたN-gram索引方式に、Unicodeを直接適用した場合、日本語文字コードと比較して文字種が大幅に増加するなどの要因により、検索速度が低下する課題がある。
本稿では、Unicode化により生じる課題を示し、それらを解決するための索引方式を提案する。また、提案方式を実装し検索速度性能を評価した結果、提案方式の有効性を確認した。
本文pdf
PDF download (199.7KB)