Detecção De Anomalia Média Em Movimento
Gostaria de detectar anomalia usando média móvel ponderada exponencial. Por uma instância de tempo t, terei o valor do ponto de dados (DP). A constante EWMA será de 0,85 (assumindo). Por exemplo, não quero tirar uma série de pontos de dados em cálculos. Em qualquer momento, diga 10, quero saber se o ponto de dados 300 (neste caso) é uma anomalia ou não. Eu também tenho o EMA (9) 150 e EMA (10) 277.5 para o cálculo (se necessário) Existe alguma lógica para calcular isso Obrigado antecipadamente pensei na lógica abaixo, mas não tenho certeza se funcionaria com certeza DP - Data Point EMA - Média de Movimento Ponderada Exponencial Seria difícil dizer que a DP é ou não é uma anomalia porque você não sabe como o EMA é desenvolvido (t-1). Ou seja, se houver muitos pontos de dados que o tornaram, será um marcador melhor do que se houver apenas um outro ponto de dados. Uma abordagem que você poderia tomar é ter um limiar de mudança. Basicamente, se a EMA mudar mais de uma porcentagem, você a considera uma anomalia. Isso no entanto sofre se seus números são realmente muito altos e as diferenças são realmente pequenas. O que você realmente precisa é um desvio padrão para detectar anomalias. Você poderia examinar potencialmente o rastreamento disso e usar isso para determinar melhor se você tem uma anomalia. Se você tiver algum conhecimento sobre os dados com os quais você estará trabalhando, atualize sua pergunta para obter ajuda mais direcionada. Em resposta aos dados que você adicionou, eu suponho que você deseja que 300 seja uma anomalia (seus outros valores foram 120 e 150). O método que eu sugeri acima funcionará, no entanto, se o número após 300 for mais normal, diga 170 que provavelmente também seria marcado como uma anomalia. IMHO o peso que você está colocando em novos valores é excessivo. Eu faria o contrário: novo .85 antigo .15 newDP em vez do que você tem do novo .15 antigo .85 newDP Se você mudar para o que eu sugiro, você obterá resultados justos. Dependendo do seu objetivo geral, resultados justos podem ser suficientes. Razões pelas quais eu não mantenho registro 1. Eu tenho que levar em consideração os valores antigos desde o início da série temporal, 2. Eu não quero um modelo baseado em janela. 3.Também, eu não quero buscar toda a série de dados para cada instância de cálculo. Eu queria saber se a lógica a seguir funcionaria, mas não é certo, a Anomalia é verdadeira se: ABS (DP-EMA (novo)) gt 3 SD ( Ou) ABS (DP-EMA (novo)) gt 3 EMWSD DP - Ponto de Dados EMA - Ponderação Ponderada Exponencial Média Ndash Aravind Jul 11 14 em 5: 06A Método de Martingale Médio Geométrico Médio para detectar mudanças nos fluxos de dados Bondu, M. Boull: Uma abordagem supervisionada para a detecção de mudanças em fluxos de dados. A Conferência Conjunta Internacional de 2011 sobre Redes Neurais (IJCNN), pp. 519 526 (2011). Daniel Kifer, Shai Ben-David, Johannes Gehrke: Detectando Mudança em Streams de Dados. Procedimentos da 30ª Conferência VLDB, Toronto, Canadá, pp. 180-191 (2004). Leszek Czerwonka: mudanças nos preços das ações como resposta às previsões de ganhos em relação aos lucros reais futuros. Alexandru Ioan Cuza Universidade de Iasi, Vol. 56, pp. 81-90 (2009). Q. Siqing, W. Sijing: um modelo homomórfico para identificar anormalidades abruptas de precursores de deslizamento de terra. Engineering Geology, Vol. 57, pp. 163168 (2000). CrossRef Wei Xiong, NaixueXiong, Laurence T. Yang, etc. Detecção de anomalia de tráfego de rede com base na teoria da catástrofe. Workshop IEEE Globecom 2010 sobre Avanços em Comunicações e Redes, pp. 2070-2074 (2010). Thomas Hilker. Michael A. Wulder. Nicholas C. Coops, etc. Um novo modelo de fusão de dados para mapeamento de alta resolução espacial e temporal do distúrbio da floresta baseado em Landsat e MODIS. Remote Sensing of Environment, Vol. 113, pp. 16131627 (2009). Ashraf M. Dewan. Yasushi Yamaguchi: Usando controle remoto e SIG para detectar e monitorar o uso do solo e a mudança de cobertura da terra no Dhaka Metropolitan de Bangladesh durante 1960 2005. Environ Monit Assess, Vol. 150, pp. 237-249 (2009). CrossRef Jin S. Deng, KeWang, Yang Hong, Jia G. Qi. Dinâmica espaço-temporal e evolução da mudança de uso da terra e padrão de paisagem em resposta à rápida urbanização. Paisagem e Planejamento Urbano, Vol. 92, pp. 187-198 (2009). CrossRef Asampbu Kitamoto: mineração de dados espaciais temporais para Typhoon Image Collection. Journal of Intelligent Information Systems, Vol. 19 (1), pp. 25-41 (2002). Tao Cheng, Jiaqiu Wang: Mineração Integrada de Dados Spatio-Temporais para Previsão de Incêndio Florestal. Transações em SIG. Vol. 12 (5), pp. 591-611 (2008). A. Dries e U. Ruckert: Detecção de Drift de Conceito Adaptativo. No SIAM Conference on Data Mining, pp. 233244 (2009). J. H. Friedman e L. C Rafsky: generalizações multivariadas dos testes de duas amostras Wald-Wolfowitz e Smirnov. Annals of Statistic, Vol. 4, pp. 697717 (2006). F. Nemec, O. Santolik, M. Parrot e J. J. Berthelier: observações espaciais de perturbações eletromagnéticas ligadas à atividade sísmica. Letras de pesquisa geofísica, vol. 35 (L05109), pp. 1-5 (2008). Sheskin, D. J. Manual de procedimentos estatísticos paramétricos e não paramétricos. 2ª ed. CRC Press, Boca Raton, Fla. Pp. 513-727 (2000). W. A. Shewhart: A Aplicação de Estatísticas como Auxílio na Manutenção da Qualidade de um Produto Manufaturado. Am. Statistician Assoc. Vol. 20, pp. 546-548 (1925). CrossRef W. A. Shewhart: Controle econômico da qualidade do produto manufacturado. Sou. Soc. Para Controle de Qualidade, (1931). E. S. Página: Problema no qual uma alteração em um parâmetro ocorre em um ponto desconhecido. Biometrika, Vol. 44, pp. 248-252 (1957). MATH M. A. Girshik e H. Rubin: uma abordagem de Bayes para um modelo de controle de qualidade, Annal of Math. Statistics, Vol. 23 (1), pp. 114-125 (1952). CrossRef Ludmila I. Kuncheva: Detecção de Mudança em Dados Multivariantes Streaming Usando Detectores de Probabilidade. Transações IEEE sobre Engenharia de Conhecimento e Dados, Vol. 6 (1), pp. 1-7 (2007). F. Chu, Y. Wang e C. Zaniolo: Uma abordagem de aprendizado adaptativo para dados ruidosos Streams. Proc. Quarta IEEE Intl Conf. Data Mining, pp. 351-354 (2004). J. Z. Kolter e M. A. Maloof: Majoridade ponderada dinâmica: um novo método de ensaio para seguir a derivação do conceito. Proc. Terceiro IEEE Intl Conf. Data Mining, pp. 123-130 (2003). H. Wang, W. Fan, P. S. Yu e J. Han: fluxo de dados de derivação de conceito de mineração usando classificadores de conjuntos. Proc. ACM SIGKDD, pp. 226-235 (2003). M. Scholz e R. Klinkenberg: Boosting Classifiers for Drifting Concepts. Intelligent Data Analysis, Vol. 11 (1), pp. 3-28 (2007). R. Klinkenberg: Learning Drifting Concepts: seleção de exemplos versus ponderação de exemplo, análise de dados inteligentes. Problema especial em sistemas de aprendizagem incremental capazes de lidar com drift conceito, Vol. 8 (3), pp. 281-300 (2004). R. Klinkenberg e T. Joachims: detecção de derivação de conceito com máquinas de vetor de suporte. Proc. 17th Intl Conf. Aprendizado de máquinas, P. Langley, ed. Pp. 487-494 (2000). G. Widmer e M. Kubat: Aprendendo na Presença de Drift Concept e Contextos Escondidos. Machine Learning, Vol. 23 (1), pp. 69-101 (1996). Kong Fanlang: um método dinâmico de previsão do sistema. Teoria e prática de engenharia de sistemas, Vol. 19 (3), pp. 58-62 (1999). Kong Fanlang: um método dinâmico de previsão de temperatura do ar. Kybernetes, Vol. 33 (2), pp. 282-287 (2004). S. S. Ho, H. Wechsler: Uma estrutura da Martingale para detectar alterações nos fluxos de dados testando o Exchangeability. Transações IEEE na análise de padrões e na inteligência da máquina, Vol. 32 (12), pp. 2113-2127 (2010). CrossRef S. Muthukrishnan, E. van den Berg e Y. Wu: Detecção de mudança seqüencial em fluxos de dados, Proc. ICDM Workshop Data Stream Mining and Management, pp. 551-556 (2007) V. Vovk, I. Nouretdinov e A. Gammerman: Testando Exchangeability On-Line. Proc. 20 Intl Conf. Aprendizado de Máquinas, T. Pp. 768-775 (2003). M. Steele: cálculo estocástico e aplicações financeiras. SpringerVerlag, (2001). E. Keogh, J. Lin e A. Fu: HOT SAX: encontrando eficientemente as subseqüências da série temporal mais incomum. Em Proceedings of the 5th IEEE International Conference on Data Mining (ICDM05), pp. 226-233 (2005). V. Moskvina e A. A. Zhigljavsky: um algoritmo baseado em análise de espectro singular para detecção de ponto de mudança. Comunicação em Estatística: Simulation amp Computation, Vol. 32 (2), pp. 319-352 (2003). MathSciNet MATH CrossRef Y. Takeuchi e K. Yamanishi: uma estrutura unificadora para detectar outliers e pontos de mudança de dados de séries temporais não estacionárias. Transações IEEE sobre Engenharia de Conhecimento e Dados, Vol. 18 (4), pp. 482489 (2006). CrossRef F. Desobry, M. Davy e C. Doncarli: um algoritmo de detecção de mudança no kernel online. IEEE Transactions on Signal Processing, Vol. 53 (8), pp. 2961-2974 (2005). MathSciNet CrossRefMoving Z-Score O modelo Moving Z-score marca anomalias em um conjunto de dados seqüencial univariável, muitas vezes uma série de tempo. Antecedentes O Z-score em movimento é um modelo muito simples para medir a anomalia de cada ponto em um conjunto de dados seqüencial como uma série de tempo. Dado um tamanho de janela. O Z-score em movimento é o número de desvios padrão que cada observação está longe da média, onde a média e o desvio padrão são calculados apenas em relação às observações anteriores. Onde a média móvel e o desvio padrão móvel são para as primeiras observações da série, o escore Z em movimento é indefinido porque há observações suficientes para estimar a média e o desvio padrão. Para a ferramenta GraphLab Create, tomamos o valor absoluto do Z-score em movimento, de modo que a pontuação de anomalia varia de 0 a infinito, com pontuações mais altas que indicam um maior grau de anormalidade. Dados e contexto A ponte de Fremont em Seattle é um lugar popular para os ciclistas atravessarem as metades do sul e do norte da cidade (e acontece ao lado do escritório de Turi). Um contador de trânsito registra o número de bicicletas que cruzam a ponte a cada hora e os dados são postados no portal de dados de Seattle. Usaremos o modelo GraphLab Create Moving Z-score para procurar anomalias nesses dados da série temporal. Os dados podem ser lidos diretamente em um SFrame do URL de portal de dados de Seattle (o arquivo é de cerca de 800 KB). O tráfego do ciclo é realmente contado separadamente em cada lado da ponte, mas combinamos essas contagens em um único total por hora. Como uma última etapa de formatação, convertemos o conjunto de dados em um TimeSeries codificando a coluna timestamp como datetime. datetime type e definindo essa coluna como o índice. Ao usar uma janela em movimento, o modelo Moving Z-score adapta-se bem à deriva distributiva, mas não lida com a sazonalidade de alta freqüência. No nosso conjunto de dados de tráfego de bicicletas, temos uma sazonalidade por hora, por dia da semana e por temporada do ano. Em particular, as contagens são baixas durante a noite, baixas nos finais de semana e baixas no inverno. Usamos duas estratégias para lidar com isso: primeiro, somamos as contagens com o método de resample para obter uma contagem de tráfego diária e, em segundo lugar, deixamos os dias de fim de semana inteiramente e focamos apenas o tráfego durante a semana. Mais adiante neste capítulo, os armosll ilustram como os modelos Moving Z-Score podem ser atualizados com novos dados. Para tornar isso mais interessante, reservamos os últimos meses de dados para usar quando chegarmos a esse capítulo. Nosso tráfego final de dados tem 693 contagens diárias de tráfego de bicicletas, de 3 de outubro de 2012 a 29 de maio de 2015. Os dados são relativamente ruidosos a olho nu, mas claramente tem uma sazonalidade a longo prazo. Utilização básica de pontuação Z em movimento O modelo Z-score em movimento leva um SFrame ou TimeSeries como entrada (tráfego neste caso), o nome da coluna que contém a série a modelar e o número de observações na janela em movimento. Para essa análise, nosso recurso é a coluna quotcountquot e usamos uma janela 15 dias ou três semanas de trabalho. A saída primária do modelo Moving Z-score é o campo de pontuação. Este objeto TimeSeries contém a série original (contagem), índice de linha original (timestamp), média móvel, pontuação de anomalia e o tempo que o modelo foi criado (para atualização do modelo - veja abaixo). Para o modelo Moving Z-score, a pontuação de anomalia é o valor absoluto do Z-score em movimento. Tal como acontece com todos os modelos GraphLab Create Anomaly Detection, esse escore varia de 0 a infinito, com pontuações mais altas que indicam um grau maior de quotanomalousness. Se o conjunto de dados de entrada for um SFrame em vez de um TimeSeries. O campo de pontuação também é um SFrame. Note-se que as primeiras 15 linhas das notas de saída não têm uma média móvel ou Z-score. Isso ocorre porque a janela em movimento não possui dados suficientes para essas observações. O parâmetro minobservations indica o número mínimo de observações necessárias para calcular a pontuação da anomalia por padrão, é igual ao tamanho da janela. Mas configurá-lo para ser menor reduziria o número de pontuação de anomalia faltando, tanto no início do conjunto de dados quanto após valores faltantes nos dados de entrada. Normalmente, o objetivo final é fazer uma decisão binária final se cada ponto é quottypicalquot ou quotanomalousquot. Uma boa maneira de fazer isso é olhar para a distribuição aproximada dos escores de anomalia com a ferramenta SArray. sketchsummary e, em seguida, obter um limite para a pontuação de anomalia com o método de quantile de sumário de esboço. Aqui declaramos os dois maiores por cento dos dados serem anomalias. A Itaposs aclara que algumas das anomalias estão associadas aos feriados, mas outros não têm uma explicação óbvia. Itaposs certamente interessante que todos os dias anômalos têm contagens mais baixas do que a média móvel desses dias. Para este tipo de dados univariados, itaposs muito útil para plotar as anomalias na série original. Atualizando o modelo com novos dados O Moving Z-score é exclusivo entre os modelos GraphLab Create, na medida em que um novo modelo pode ser criado atualizando um modelo existente. Isso permite que o novo modelo use o final da série modelaposs existente para calcular os escores Z em movimento para os primeiros pontos nos novos dados (evitando o aposNoneaposs no início da nossa primeira saída de modelaposs). Para essa análise, as armas utilizam as 169 observações desde 1º de junho de 2015 como dados de quotnewquot. Criar um novo modelo com o método de atualização não altera o modelo original. O novo modelo parece e cheira exatamente como nosso modelo original, mas há duas pequenas diferenças nos resultados. Primeiro, não há mais valores faltantes nas pontuações TimeSeries. Porque a janela em movimento é preenchida a partir dos dados anteriores do modelo de armazenamento. A segunda diferença é que o modelupdatetime não é mais idêntico para cada observação. A nova saída modelaposs contém as últimas observações do windows para que possamos ver como os novos escores Z são computados, mas estes são marcados com o tempo original de criação do modelo. Podemos usar esse tempo para separar as pontuações, para que possamos traçar apenas as novas anomalias de transferência de dados. Mais uma leitura Jake Vanderplas escreveu uma análise aprofundada dos dados do tráfego da bicicleta da ponte Fremont. O objetivo de sua análise não é a detecção de anomalia, mas é uma leitura excelente.
Comments
Post a Comment