大会名称 |
---|
2021年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2021 |
発行日 |
2021-08-12 |
セッション番号 |
1c |
セッション名 |
データベースとデータ工学 |
講演日 |
2021/08/25 |
講演場所(会議室等) |
c |
講演番号 |
CD-006 |
タイトル |
特徴選択を導入した低・ゼロ頻度N-gramの効率的な尤度比推定法 |
著者名 |
菊地真人, 吉田光男, 梅村恭司, 大囿忠親, |
キーワード |
尤度比推定, 低頻度, ゼロ頻度, N-gram, 特徴選択法 |
抄録 |
自然言語処理では,N-gram の尤度比を頻度情報から推定することがある.しかし,存在しうるN-gramの一部しかコーパスに含まれず,かつ,そのほとんどはまれにしか出現しない.ゆえに,低・ゼロ頻度N-gramに対する尤度比推定法が必要になる.これを達成する一方法は,N-gramを文字や単語等の離散値に分解し,個々の尤度比の積を取ることである.しかしこの方法では,多数の離散値を扱うため,推定に要する時間とメモリ使用量が問題になる.また,不要な離散値を用いると推定精度が低下する.そこで本稿では,先述の方法に文書分類のための特徴選択法を組み合わせることを提案し,低・ゼロ頻度N-gramに対して有効的かつ効率的な尤度比推定ができることを示す. |
本文pdf |
PDF download (1.2MB) |