講演名 2012-03-12
無限長モデル距離を用いた異種時系列クラスタリング(時系列解析,統計推理,データベース,一般)
広瀬 俊亮, 泉水 克之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では長さと位相が異なる時系列のクラスタリング(異種時系列クラスタリング)の問題を取り扱う。時系列クラスタリングは、基礎的かつ応用範囲の広い分析手法である。他のクラスタリング問題を扱う場合と比べて、時系列クラスタリングで特に問題となるのが時系列間の距離である。異なる長さと位相を持つ時系列(異種時系列)をどのように比較すれば良いかは自明ではなく、不適切な距離を採用すれば無意味な結果しか得られない。特に、位相差を無視して時系列をクラスタリングするとデータに含まれる特徴的なパターンの情報を含まない無意味なクラスター中心が得られるという問題は「正弦波問題」としてよく知られている。本稿では異種時系列クラスタリングの手法を提案する。提案手法の核となるアイデアは時系列間の距離として観測されたデータ間の距離ではなくデータから学習されたモデル間の距離(KL距離)を用いてクラスタリングを実行することである。この方法を採用する利点は以下の二点である:(1)KL距離を計算する際の積分範囲を揃えることで異なる長さの観測データを直接比較でき、(2)KL距離の積分範囲の端(初期状態・境界条件)を固定することで位相を揃えた比較ができる。このため、提案手法によって長さと位相の異なる時系列のクラスタリングを実現できる。
抄録(英) This paper addresses the issue of heterogeneous time series clustering, which means clustering of time series having various phases and various length. Time series clustering is a data analysis method, which is basic and has wide variety of applications. Comparing with the other clustering tasks, we usually face a problem of a distance function, in the case of time series clustering. This is because it is not trivial how to compare time series having different length and different phases. If we employ an inappropriate distance, meaningless results are derived. Especially, it is well known as "sine wave problem" that time series clustering without taking into account phase difference usually derives meaningless cluster centers, which have no information of the observed time series. We propose a method for heterogeneous time series clustering. The key idea of the method is that we do not employ distance between observed time series but employ distance between models learned from observed time series (namely we employ KL distance). The reasons for this employment are as follows: (1) We can directly compare time series of different length by employing the same integral ranges in the calculation of KL distance between two models, and (2) we can align the phases by giving the same intial conditions (boundary conditions or the lower edges of the integral ranges) to two time series. Therefore we can conduct clustering of time series having various length and various phases by empoying the proposed method.
キーワード(和) 異種時系列クラスタリング / 無限長モデル距離 / Szegoの定理
キーワード(英) heteroogeneous time series clustering / infinite-length model distance / Szego theorem
資料番号 IBISML2011-97
発行日

研究会情報
研究会 IBISML
開催期間 2012/3/5(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Information-Based Induction Sciences and Machine Learning (IBISML)
本文の言語 JPN
タイトル(和) 無限長モデル距離を用いた異種時系列クラスタリング(時系列解析,統計推理,データベース,一般)
サブタイトル(和)
タイトル(英) Heterogeneous Time Series Clustering based on Infinite-Length Model Distance
サブタイトル(和)
キーワード(1)(和/英) 異種時系列クラスタリング / heteroogeneous time series clustering
キーワード(2)(和/英) 無限長モデル距離 / infinite-length model distance
キーワード(3)(和/英) Szegoの定理 / Szego theorem
第 1 著者 氏名(和/英) 広瀬 俊亮 / Shunsuke HIROSE
第 1 著者 所属(和/英) SAS Institute Japan株式会社コンサルティングサービス部
Consulting Services Department, SAS Institute Japan Ltd.
第 2 著者 氏名(和/英) 泉水 克之 / Katsuyuki IZUMI
第 2 著者 所属(和/英) SAS Institute Japan株式会社コンサルティングサービス部
Consulting Services Department, SAS Institute Japan Ltd.
発表年月日 2012-03-12
資料番号 IBISML2011-97
巻番号(vol) vol.111
号番号(no) 480
ページ範囲 pp.-
ページ数 8
発行日