講演名 2017-12-23
Detection of mergeable Wikipedia articles based on multiple embedding results
王 任之(早大), 岩井原 瑞穂(早大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和)
抄録(英) Wikipedia is the largest online encyclopedia, in which articles are edited by different volunteers with different thoughts and styles. Sometimes two or more articles’ titles are different but the themes of these articles are exactly the same or strongly similar. Administrators and editors are supposed to detect these article pairs and determine whether they should be merged together. In this paper, we propose a method to automatically determine whether an article pair should be merged together. We consider both duplicate case and overlap case. In the duplicate case, the articles pairs are covering exactly the same contents. In the overlap case, the articles pairs are covering related subjects that have a significant overlap. The content of an overlap part is similar but the words in the pair are probably different, so methods that exploit semantic relatedness are necessary. To deal with this problem we propose combination of multiple embedding results and rebuild word vectors for detecting mergeable article pairs. We also deal with various mergeable cases by combining distinct text fragments together. Our experiments show that our method performs better than existing embedding methods.
キーワード(和)
キーワード(英) word embeddingmergeable articleWikipediatext mining
資料番号 DE2017-35
発行日 2017-12-15 (DE)

研究会情報
研究会 DE / IPSJ-DBS
開催期間 2017/12/22(から2日開催)
開催地(和) 国立情報学研究所(NII)
開催地(英) National Institute of Informatics
テーマ(和) データ工学と食メディア、一般
テーマ(英)
委員長氏名(和) 灘本 明代(甲南大) / 森嶋 厚行(筑波大)
委員長氏名(英) Akiyo Nadamoto(Konan Univ.) / 森嶋 厚行(筑波大)
副委員長氏名(和) 江口 浩二(神戸大) / 大塚 真吾(神奈川工科大)
副委員長氏名(英) Koji Eguchi(Kobe Univ.) / Shingo Otsuka(Kanagawa Inst. of Tech.)
幹事氏名(和) 北山 大輔(工学院大) / 上田 真由美(流通科学大)
幹事氏名(英) Daisuke Kitayama(Kogakuin Univ.) / Mayuki Ueda(Univ. of Marketing and Distrbution Science)
幹事補佐氏名(和) 合田 和生(東大) / 塩川 浩昭(筑波大)
幹事補佐氏名(英) Kazuo Goda(Univ. of Tokyo) / Yuroaki Shiokawa(Tsukuba Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Data Engineering / Special Interest Group on Database System
本文の言語 ENG
タイトル(和)
サブタイトル(和)
タイトル(英) Detection of mergeable Wikipedia articles based on multiple embedding results
サブタイトル(和)
キーワード(1)(和/英) / word embeddingmergeable articleWikipediatext mining
第 1 著者 氏名(和/英) 王 任之 / Renzhi Wang
第 1 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda U.)
第 2 著者 氏名(和/英) 岩井原 瑞穂 / Mizuho Iwaihara
第 2 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda U.)
発表年月日 2017-12-23
資料番号 DE2017-35
巻番号(vol) vol.117
号番号(no) DE-374
ページ範囲 pp.79-83(DE),
ページ数 5
発行日 2017-12-15 (DE)