Top Qs
Linha do tempo
Chat
Contexto
Valor atípico
Da Wikipédia, a enciclopédia livre
Remove ads
Em estatística, um valor atípico, ou aberrante ou outlier é uma observação que difere significativamente das demais.[1][2] Um outlier pode surgir por variações naturais nas medições, indicar um evento raro ou novo, ou ainda resultar de erro experimental. Neste último caso, costuma-se considerar a possibilidade de exclusão da observação, dependendo do contexto.[3][4]
Foram assinalados vários problemas nesta página ou se(c)ção:
|
“Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto” (Hawkins, 1980), em outras palavras os outliers são dados que se distanciam radicalmente de todos os outros São pontos fora da curva normal, valores que fogem da normalidade e que podem causar desequilíbrio nos resultados obtidos. Um conjunto de dados pode apresentar um ou vários outliers. O efeito de um outlier é quase um efeito borboleta, um pequeno erro se propaga e quando não tratado corretamente pode ocasionar problemas e anomalias. Em análises estatísticas o efeito do outlier pode ser facilmente observado.
Em disciplinas aplicadas modernas, especialmente nas áreas de geodésia e estatística robusta, considera-se frequentemente que um outlier é uma observação que **não pertence ao modelo matemático adotado**. Nesse sentido, Rofatto et al. (2022) definem um outlier como:[5]
- Uma observação que se afastou do valor mais provável a ponto de não pertencer ao modelo matemático (funcional e estocástico) estipulado.
Essa definição enfatiza que um valor aberrante não apenas se distancia numericamente dos demais dados, mas também **viola os pressupostos funcionais ou estatísticos do modelo**, podendo comprometer a validade da inferência estatística ou da estimação de parâmetros.
É essencial entender os outliers no âmbito da análise de dados, pois estes podem comprometer de forma negativa os resultados de uma análise, do mesmo modo podem ser exatamente o que se desejar encontrar. O termo outliers é também conhecido por como dados discrepantes; pontos fora da curva; observações fora do comum; anomalias e valores atípicos.
Os outliers podem ser divididos em dois grupos os univariados e os multivariados. O primeiro caso é verificado ao se analisar a distribuição de uma variável simples: analisando apenas a distribuição de idades pode-se verificar a presença do outlier. O outlier multivariado pode ser detectado em espaço “n-dimensional”. É necessário recorrer a distribuições multidimensionais para poder observa-lo.
Os outliers ou valores atípicos podem ser causados por vários fatores, podem ser naturais ou artificiais, no caso de outliers naturais pode-se pensar em alguém que declarou sua renda, e se saiu muito melhor, ou pior do que o restante de pessoas de seu perfil econômico. Os valores atípicos artificiais podem ser devido a uma leitura ou erro de anotações e transcrição incorreta de dados, bem como mudanças não controláveis nas condições experimentais. Os dados discrepantes podem ser detectados através de uma verificação lógica dos dados, inclusive fazer o uso de gráficos e testes apropriados. O gráfico mais usado é o box plot.
Após a detecção de um outlier deve-se excluí-lo ou conserva-lo, dependendo do real motivo para o aparecimento dessa variável. Caso haja motivos concretos como um erro na observação ou na execução do experimento o certo é eliminá-lo, mas se não houver explicação para o aparecimento deste dado então ele pode refletir uma característica do que está sendo estudado, neste caso a observação feita deve ser incluída na análise e deve ser tratada especialmente, realizar uma análise separada somente com esses dados. separá-los em dois grupos e criar modelos específicos para analisá-los.
- Calculando um outlier
Considerando um conjunto de dados que representa a temperatura de oito objetos, e a temperatura normal desses objetos é entre 15 e 25 º C, mas um dos objetos obteve a temperatura de 45 º C, analisando rapidamente esse valor pode-se afirmar que se trata de um outlier. Para calcular primeiro é preciso ordenar esses valores em ordem crescente. Com essa classificação já é possível perceber dois dados o número mínimo (15) e máximo (45) O próximo passo é definir a mediana do conjunto de dados. Para isso é preciso somar os dois números do meio e dividi-lo por dois (21+21/2 = 21), já que a quantidade de valores é par, caso fosse ímpar era só encontrar o valor central, em seguida deve-se encontrar os quartis. O quartil 1 é o número médio do intervalo à esquerda da mediana (15, 15, 20, 21), como se trata de um conjunto de dados pares então deve-se fatorar os valores novamente (15+20/2 = Q1= 17,5). O quartil 3 é o número médio do intervalo à direita da mediana (21, 22, 25, 45 = 22+25/2 = Q 3 = 23,5) o próximo passo é encontrar as “barreiras internas” do conjunto de dados. O primeiro multiplicar a diferença entre Q1 e Q3 (chamada amplitude interquartílica) por 1,5 (23,5 -17,5 =6 * 1,5 = 9) em seguida adiciona esse número ao Q3 (23,5+ 9= 32,5) e subtraia do Q1 para construir as barreiras(17,5 – 9= 8,5), as barreiras internas superior e inferior seriam 32,5 e 8,5. Todos os dados analisados que estiverem fora dessa amplitude são considerados outliers moderados e por último deve-se encontrar as “barreiras externas” do conjunto de dados, a única coisa que difere esse passo do anterior é que a amplitude interquartílica é multiplicada por 3, em vez de 1,5. Ao multiplicar a amplitude interquartílica acima por 3, temos (6 * 3), ou 18. Deste modo, as barreiras externas superior e inferior são 41,5 e 0,5. Qualquer valor observacional que se encontrar fora das barreiras externas é considerado um outlier extremo.[6]
Remove ads
Escore Z
Um dos métodos é o do escore z, ou do desvio padrão. Neste método, será considerado outlier o valor se encontrar a uma determinada quantidade de desvios padrões da média. A quantidade destes desvios pode variar conforme o tamanho da amostra.[7]
Referências
- Barnett, V.; Lewis, T. (1994). Outliers in Statistical Data (3ª ed.). Wiley.
- Taylor, J. R. (1997). An Introduction to Error Analysis (2ª ed.). University Science Books.
- Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58.
- Wilks, D. S. (2011). Statistical Methods in the Atmospheric Sciences (3ª ed.). Academic Press.
- Rofatto, Vinicius Francisco; Matsuoka, Marcelo Tomio; Klein, Ivandro; Bonimani, Maria Luísa Silva; Rodrigues, Bruno Póvoa; de Campos, Caio Cesar; Veronez, Mauricio Roberto; da Silveira Jr., Luiz Gonzaga (3 de setembro de 2022). «An artificial neural network-based critical values for multiple hypothesis testing: data-snooping case». Survey Review (em inglês) (386): 440–455. ISSN 0039-6265. doi:10.1080/00396265.2021.1968176. Consultado em 22 de julho de 2025
- Sander, Carlos. Passo a passo como fazer um box plot. CAE, 2019; em caetreinamentos.com.br/blog/ferramentas
Remove ads
Bibliografia
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads