電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2007-07-02 14:55
木直列化を用いたXMLデータの類似結合
文 連子天笠俊之北川博之筑波大DE2007-37
抄録 (和) 本稿では,XMLデータの木構造をノードの系列に直列化する手法を用い,系列
同士の類似度によってXMLデータの類似結合を行う手法を提案する.近年
のXMLデータの急速な普及により,多くのデータがXML形式で記述されるよう
になっている.その結果,類似した内容であるにも関わらず,異なるマーク
アップ語彙や異なる構造を持つXMLデータが増加している.これらの相補的な
情報を統合するための手段の一つが類似結合(similarity join)である.本研
究で提案する類似結合の概要は以下のとおりである.1) 結合しようとする二
つのXMLデータを,ノードの系列として直列化する,2) 得られた系列から,
構造および内容に関して意味的にまとまりのある部分系列を抽出する,3) 部
分系列同士のテキスト情報を用いて,マッチする可能性のある部分系列のペ
アを抽出する,4) 得られたペアから,構造的に類似している系列を抽出する.
テキスト同士の類似性を比較するために,確率的な集合要素判定手法であ
るbloomフィルタを用いる.また,系列化されたXML部分木の構造の類似性を
判定するために編集類似度を用いる. 
(英) In this paper we propose a scheme for similarity join over XML data
based on XML data serialization and subsequent similarity matching
over XML node subsequences. Due to the recent explosive diffusion
of XML, large amount of electronic data are now marked up with XML.
As a consequence, there are growing number of XML data which
represent similar contents, but have dissimilar structures. In
order to extract as much information as possible from those
heterogeneous information, similarity join has been used.
Basically, our (proposed) similarity join for XML data can be
summarized as follows: 1) we serialize XML data as XML node
sequences; 2) we extract semantically/structurally coherent
subsequences; 3) we filter out dissimilar subsequences using textual
information; and 4) we extract pairs of subsequences as final result
by checking structural similarity. We make use of the bloom
filter, which is a probabilistic method for set member test, to
measure similarities over texts, and the edit similarity to
measure structural similarities over node sequences.
キーワード (和) XML / 類似結合 / XMLデータの直列化 / bloomフィルタ / / / /  
(英) XML / similarity join / XML data serialization / bloom filter / / / /  
文献情報 信学技報, vol. 107, no. 131, DE2007-37, pp. 91-96, 2007年7月.
資料番号 DE2007-37 
発行日 2007-06-25 (DE) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード DE2007-37

研究会情報
研究会 DE  
開催期間 2007-07-02 - 2007-07-04 
開催地(和) 秋保温泉(仙台) 
開催地(英) Akiu hot springs (Sendai) 
テーマ(和) 夏のデータベースワークショップ 2007 (データ工学,一般) 
テーマ(英) Summer Database Workshop 2007 (Data engineering, etc.) 
講演論文情報の詳細
申込み研究会 DE 
会議コード 2007-07-DE 
本文の言語 日本語 
タイトル(和) 木直列化を用いたXMLデータの類似結合 
サブタイトル(和)  
タイトル(英) An Approach for XML Similarity Join using Tree Serialization 
サブタイトル(英)  
キーワード(1)(和/英) XML / XML  
キーワード(2)(和/英) 類似結合 / similarity join  
キーワード(3)(和/英) XMLデータの直列化 / XML data serialization  
キーワード(4)(和/英) bloomフィルタ / bloom filter  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 文 連子 / Lianzi Wen / ブン レンコ
第1著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: University of Tsukuba)
第2著者 氏名(和/英/ヨミ) 天笠 俊之 / Toshiyuki Amagasa / アマガサ トシユキ
第2著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: University of Tsukuba)
第3著者 氏名(和/英/ヨミ) 北川 博之 / Hiroyuki Kitagawa / キタカワ ヒロユキ
第3著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: University of Tsukuba)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2007-07-02 14:55:00 
発表時間 25 
申込先研究会 DE 
資料番号 IEICE-DE2007-37 
巻番号(vol) IEICE-107 
号番号(no) no.131 
ページ範囲 pp.91-96 
ページ数 IEICE-6 
発行日 IEICE-DE-2007-06-25 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会