講演名 2008-06-19
編集距離による最類似文字列の探索高速化に関する研究(テーマ,膨大なデータから学ぶもの)
花田 博幸, 工藤 峰一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 文字列の集合T(索引の作成を許す)の中から,クエリ文字列qとの編集距離が最小となる要素を求める問題を考える.この探索を高速化する索引付けの方法として,従来はTの要素同士の距離の関係に基づき索引を作るものが主であった.これに対し我々は,要素が文字列であることを積極的に利用した索引付けを考え,索引付けおよび探索を高速化する.本研究では,編集距離の近似としてn-gram距離を導入し,距離空間における探索木の一つであるVP木の構築を高速化する.実験の結果,探索速度を落とさずに,VP木構築の時間を編集距離をそのまま用いる場合に比べて8分の1に削減できた.
抄録(英) The problem is finding the nearest string, measured by edit distance, to a query string q from a set T of strings. Here indexing of T is assumed. Conventional indexing methods construct indexes mainly from the distances between elements in T. In the proposed method, the nature of strings is introduced to enhancing indexing and searching. We introduce n-gram distance as an approximation of edit distance for faster construction of the VP-trees which are search trees in metric spaces. The method succeeded to speed up the construction of VP-trees at a factor of 1/8, without increasing searching time.
キーワード(和) 文字列 / 編集距離 / 最近隣(Nearest Neighbor)法 / 索引付け / 探索木
キーワード(英) String / Edit Distance / Nearest Neighbor Method / Indexing / Search Tree
資料番号 DE2008-8,PRMU2008-26
発行日

研究会情報
研究会 PRMU
開催期間 2008/6/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 編集距離による最類似文字列の探索高速化に関する研究(テーマ,膨大なデータから学ぶもの)
サブタイトル(和)
タイトル(英) A study on fast search of the nearest string in edit distance
サブタイトル(和)
キーワード(1)(和/英) 文字列 / String
キーワード(2)(和/英) 編集距離 / Edit Distance
キーワード(3)(和/英) 最近隣(Nearest Neighbor)法 / Nearest Neighbor Method
キーワード(4)(和/英) 索引付け / Indexing
キーワード(5)(和/英) 探索木 / Search Tree
第 1 著者 氏名(和/英) 花田 博幸 / Hiroyuki HANADA
第 1 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology, Hokkaido University
第 2 著者 氏名(和/英) 工藤 峰一 / Mineichi KUDO
第 2 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology, Hokkaido University
発表年月日 2008-06-19
資料番号 DE2008-8,PRMU2008-26
巻番号(vol) vol.108
号番号(no) 94
ページ範囲 pp.-
ページ数 5
発行日