大会名称 |
---|
2018年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2018 |
発行日 |
2018-09-12 |
セッション番号 |
2g |
セッション名 |
テキストマイニング |
講演日 |
2018/09/19 |
講演場所(会議室等) |
D棟D24 |
講演番号 |
F-015 |
タイトル |
Benfordの法則とテキストマイニングを融合した大学入試統計データ信憑性分析 |
著者名 |
戸﨑祐輔, 鈴木孝彦, 廣川佐千男, 峯 恒憲, |
キーワード |
ベンフォードの法則, テキストマイニング, 大学入学者データ |
抄録 |
自然な数値データの集合について、最初の桁の分布が特定の分布になっていることBenfordの法則として知られている。これを使い、統計的数表データの不自然さを検出することができる。 しかし、そのままでは、不自然な部分を特定し、その部分を言葉で説明することはできない。 本稿では、表の各セルについて、行や列のタイトル、表の説明文中の単語を対応づけることで、セルを対象とする検索エンジンを構築した。検索条件を与えると、それを制約条件として部分的数値データが得られる。このデータの分布を検証することで、単語で表現される不自然な部分を発見できる。日本の私立大学の受験者数、入学者数、合格者数を対象に、提案手法の有効性を検証した。 |
本文pdf |
PDF download (398.6KB) |