大会名称
2018年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2018
発行日
2018-09-12
セッション番号
2g
セッション名
テキストマイニング
講演日
2018/09/19
講演場所(会議室等)
D棟D24
講演番号
F-015
タイトル
Benfordの法則とテキストマイニングを融合した大学入試統計データ信憑性分析
著者名
戸﨑祐輔鈴木孝彦廣川佐千男峯 恒憲
キーワード
ベンフォードの法則, テキストマイニング, 大学入学者データ
抄録
自然な数値データの集合について、最初の桁の分布が特定の分布になっていることBenfordの法則として知られている。これを使い、統計的数表データの不自然さを検出することができる。
 しかし、そのままでは、不自然な部分を特定し、その部分を言葉で説明することはできない。
 本稿では、表の各セルについて、行や列のタイトル、表の説明文中の単語を対応づけることで、セルを対象とする検索エンジンを構築した。検索条件を与えると、それを制約条件として部分的数値データが得られる。このデータの分布を検証することで、単語で表現される不自然な部分を発見できる。日本の私立大学の受験者数、入学者数、合格者数を対象に、提案手法の有効性を検証した。
本文pdf
PDF download (398.6KB)