講演抄録/キーワード |
講演名 |
2012-11-07 15:30
削減コーパスのパープレキシティ ○小林隼人(東芝) IBISML2012-38 |
抄録 |
(和) |
本論文では,計算領域を確保するために低頻度語を削除したコーパス(文書集合)における語彙数とパープレキシティの関係を考える.コーパスが Zipf則に従うという仮定のもとで理論的解析を行い,k-グラムモデルとトピックモデルのパープレキシティが特定の条件下では削減後の語彙数に関するべき乗則に近似的に従うことを証明する.この結果は,低頻度語は統計モデルの学習結果に大きな影響を及ぼさないという我々の直感に理論的根拠を与える.得られた結果について人工コーパス上の実験を行い理論の正しさを確認し,実コーパス上の実験により理論値と実測値の差を議論する. |
(英) |
This paper studies a relationship between perplexity and vocabulary size on a corpus (or documents), which is reduced to improve computational performance. We prove that perplexity of k-gram models and topic models approximately follows a power law with respect to reduced vocabulary size under some condition, when a corpus follows Zipf's law. This gives a theoretical evidence for our intuition that low-frequency words may not make a large contribution to the performance of statistical models. We verify the correctness of our theory on synthetic corpora and examine a gap between theory and practice on real corpora. |
キーワード |
(和) |
Nグラムモデル / トピックモデル / Zipf則 / べき乗則 / / / / |
(英) |
N-gram model / topic model / Zipf's law / power law / / / / |
文献情報 |
信学技報, vol. 112, no. 279, IBISML2012-38, pp. 31-38, 2012年11月. |
資料番号 |
IBISML2012-38 |
発行日 |
2012-10-31 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2012-38 |