大会名称
2021年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2021
発行日
2021-08-12
セッション番号
1c
セッション名
データベースとデータ工学
講演日
2021/08/25
講演場所(会議室等)
c
講演番号
CD-006
タイトル
特徴選択を導入した低・ゼロ頻度N-gramの効率的な尤度比推定法
著者名
菊地真人吉田光男梅村恭司大囿忠親
キーワード
尤度比推定, 低頻度, ゼロ頻度, N-gram, 特徴選択法
抄録
自然言語処理では,N-gram の尤度比を頻度情報から推定することがある.しかし,存在しうるN-gramの一部しかコーパスに含まれず,かつ,そのほとんどはまれにしか出現しない.ゆえに,低・ゼロ頻度N-gramに対する尤度比推定法が必要になる.これを達成する一方法は,N-gramを文字や単語等の離散値に分解し,個々の尤度比の積を取ることである.しかしこの方法では,多数の離散値を扱うため,推定に要する時間とメモリ使用量が問題になる.また,不要な離散値を用いると推定精度が低下する.そこで本稿では,先述の方法に文書分類のための特徴選択法を組み合わせることを提案し,低・ゼロ頻度N-gramに対して有効的かつ効率的な尤度比推定ができることを示す.
本文pdf
PDF download (1.2MB)