講演名 2013/10/30
An Algorithm for Finding Frequently Appearing Long String Patterns from Large Scale Databases
,
PDFダウンロードページ PDFダウンロードページへ
抄録(和)
抄録(英) We propose a new algorithm for solving frequent string mining problem with allowing approximate matches. The algorithm first computes the similarity between the strings in the database, and enumerate clusters generated by similarity. We then compute representative strings for each cluster, and the representatives are our frequent strings. Further, by taking majority votes, we extend the obtained representatives to obtain long frequent strings. The computational experiments we performed show the efficiency of both our model and algorithm; we were able to find many string patterns appearing many times in the data, and that were long but not particularly numerous. The computation time of our method is practically short, such as 20 minutes even for a genomic sequence of 100 millions of letters.
キーワード(和)
キーワード(英)
資料番号 Vol.2013-AL-145 No.2
発行日

研究会情報
研究会 MSS
開催期間 2013/10/30(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Mathematical Systems Science and its applications(MSS)
本文の言語 ENG
タイトル(和)
サブタイトル(和)
タイトル(英) An Algorithm for Finding Frequently Appearing Long String Patterns from Large Scale Databases
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) / Takeaki Uno
第 1 著者 所属(和/英)
National Institute of Informatics
発表年月日 2013/10/30
資料番号 Vol.2013-AL-145 No.2
巻番号(vol) vol.113
号番号(no) 279
ページ範囲 pp.-
ページ数 8
発行日