Telesto: Indexação de Séries Temporais por Meio de Árvores de Sufixo Generalizadas

A time series is a collection of measurements made sequentially over time. Time series appear in various application such as finance, marketing, agriculture, weather and industrial and scientific data gathering. Similarity searching over time series databases is an important tool to extract knowledge. In this paper, we propose Telesto, a novel indexing technique aimed at time series similarity search, which is based on discretized time series and generalized suffix trees. Telesto discretizes time series and represents them as strings, using as a basis the Symbolic Aggregate Approximation (SAX) technique. Thereafter, these strings are indexed using a generalized suffix tree. To provide a range query operation among discretized time series, Telesto extends the suffix-tree substring searching algorithm by calculating distances in the discretized time series space. Performance tests showed that Telesto is scalable regarding the database and query sizes, in addition to be very efficient in similarity queries over large real-world time series databases. Resumo. Uma série temporal é uma coleção de medidas feitas sequencialmente ao longo do tempo sobre uma mesma coleção de variáveis. Séries temporais são encontradas nas mais variadas áreas de aplicação, tais como finanças, marketing, agricultura, meteorologia e coleta de dados industriais e científicos. A consulta por similaridade é uma ferramenta importante para extrair conhecimento em bases de dados de séries temporais. Neste artigo é proposto o método Telesto, uma nova abordagem de indexação destinada a consultas por similaridade em séries temporais. O método é baseado na discretização de séries temporais indexadas em árvores de sufixo generalizadas. Nesse método, as séries temporais são discretizadas em cadeias de caracteres (strings) utilizando a técnica Symbolic Aggregate Approximation (SAX) e então indexadas por meio de uma árvore de sufixo generalizada. Para realizar consultas por abrangência sobre uma coleção de séries temporais discretizadas, Telesto estende o algoritmo de busca por substrings em árvores de sufixo para calcular a distância entre essas séries. Testes de desempenho mostraram que Telesto é escalável quanto ao aumento do tamanho da base e do tamanho da consulta, além de responder eficientemente a consultas por abrangência em grandes bases de dados reais de séries temporais.

[1]  Eamonn J. Keogh,et al.  VizTree: a Tool for Visually Mining and Monitoring Massive Time Series Databases , 2004, VLDB.

[2]  Eamonn J. Keogh,et al.  Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases , 2001, Knowledge and Information Systems.

[3]  Dan Gusfield Algorithms on Strings, Trees, and Sequences - Computer Science and Computational Biology , 1997 .

[4]  Dina Q. Goldin,et al.  On Similarity Queries for Time-Series Data: Constraint Specification and Implementation , 1995, CP.

[5]  Heikki Mannila,et al.  Rule Discovery from Time Series , 1998, KDD.

[6]  Konstantinos Kalpakis,et al.  Distance measures for effective clustering of ARIMA time-series , 2001, Proceedings 2001 IEEE International Conference on Data Mining.

[7]  Mohammed Al-Shalalfa,et al.  Efficient Periodicity Mining in Time Series Databases Using Suffix Trees , 2011, IEEE Transactions on Knowledge and Data Engineering.

[8]  Eamonn J. Keogh,et al.  A symbolic representation of time series, with implications for streaming algorithms , 2003, DMKD '03.

[9]  Jianmin Wang,et al.  Rules Discovery from Cross-Sectional Short-Length Time Series , 2004, PAKDD.

[10]  J. A. Schell,et al.  Monitoring vegetation systems in the great plains with ERTS , 1973 .

[11]  Li Wei,et al.  Experiencing SAX: a novel symbolic representation of time series , 2007, Data Mining and Knowledge Discovery.

[12]  Pierre Geurts,et al.  Pattern Extraction for Time Series Classification , 2001, PKDD.