講演名 2007-05-31
軽量のテキスト処理による部分類似単語列検出手法(「自動化:推論,発見,学習,データマイニング」及び一般)
竹田 隆治, 高須 淳宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 同一の話題に関して書かれた文書中には類似した表現や文字列が頻出する。完全に同一の文字列であれば、検索用インデックス作成手法などでそれらがどこに出現したかを特定することは容易だが、部分的に違う単語や違う表現などが含まれるとそれらは完全に別のものとして扱われる。既存の曖昧検索などではユーザがクエリーを与え、システムがそれに対するレスポンスを返すのであるが、本研究では任意のコーパスに対して、どの部分とどの部分が類似しているのかのマッピングを行う。
抄録(英) Similar expression and character string appear frequently during documents written about the same topic. It is easy to identify where they appeared by indexing for searches, if those are the perfect matching string, but they are taken aside when a string is different partially or includes different expression. Usually query is given by user in approximate pattern matching, the system only finds most suitable document, however we would propose the mapping method that which part and which part resemble self-organizing in this study.
キーワード(和) Suffix arrays / 重み付き編集距離 / テキストマイニング / 類似単語列検出
キーワード(英) Suffix arrays / weighted edit distance / text mining / Similarity Sequences extracting
資料番号 AI2007-7
発行日

研究会情報
研究会 AI
開催期間 2007/5/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 軽量のテキスト処理による部分類似単語列検出手法(「自動化:推論,発見,学習,データマイニング」及び一般)
サブタイトル(和)
タイトル(英) Similarity Sequences extracting method using efficient text processing
サブタイトル(和)
キーワード(1)(和/英) Suffix arrays / Suffix arrays
キーワード(2)(和/英) 重み付き編集距離 / weighted edit distance
キーワード(3)(和/英) テキストマイニング / text mining
キーワード(4)(和/英) 類似単語列検出 / Similarity Sequences extracting
第 1 著者 氏名(和/英) 竹田 隆治 / Takaharu Takeda
第 1 著者 所属(和/英) 総合研究大学院大学複合科学研究科情報学専攻
The Graduate university for Advanced Studies, the School of Multidisciplinary Science, the Department of Informatics
第 2 著者 氏名(和/英) 高須 淳宏 / Atsuhiro Takasu
第 2 著者 所属(和/英) 国立情報学研究所コンテンツ科学研究系
National Institute of Informatics, Office for Promotion of Research Projects, Research Center for Testbeds and Prototyping
発表年月日 2007-05-31
資料番号 AI2007-7
巻番号(vol) vol.107
号番号(no) 78
ページ範囲 pp.-
ページ数 6
発行日