大会名称
2010年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2010
発行日
2010/8/20
セッション番号
7Q
セッション名
クラウドとデータ統合
講演日
2010/09/09
講演場所(会議室等)
Q会場(ウエスト2号館3F 第5講義室)
講演番号
D-029
タイトル
相関値差分比較方式によるマッピングモデルSplit判定
著者名
細田 聖人楓 仁志高山 茂伸菅野 幹人
キーワード
スキーママッチング, データ統合, Split
抄録
大規模データ統合の実現に向け、 スキーママッチング手法の一つであり、
1対複数のカラム関係を対応付けるマッピングモデルSplit判定に関して、
相関値差分等の複数アルゴリズムを利用し判定する方式を提案する。
1対複数のカラム間対応関係の例としては、「氏名」カラムと、氏名を分割した「姓」「名」のカラムの対応関係、といった例が挙げられる。
従来方式では、判定時に人手にてサンプルデータ作成などの工程が必要であり、
データ統合が大規模になった際には、開発コスト増大する。
本発表では、複数カラムにてデータ内容に関する相関値を算出し、
その値を差分計算した値を利用して、Split判定を実現するアルゴリズムを提案する。
本文pdf
PDF download (298.2KB)