Análise de outliers: O que é e como utilizar? 2 Comentários



Outlier é descrito em estatística como um ponto que está muito distante das demais observações em uma série estatística, e que chamamos comumente de "ponto fora da curva".

Outliers podem ocorrer em qualquer distribuição e são, frequentemente, indicativos de uma distribuição com muita variação entre os seus componentes ou algum erro de mensuração, podendo ser identificados através dos valores máximos ou mínimos - já que são observações de desvios extremos - , mas nem sempre, o máximo e o mínimo são outliers.

A tratativa mais comum para outliers é a exclusão manual destes componentes da amostra ou a utilização de estatística robusta para eliminar as falhas que podem ser causadas nesta análise da amostra ou da população. Independentemente disso, seus porquês precisam ser analisados mais a fundo.

Por exemplo: Se considerarmos 10 pessoas em uma academia e, destas, 9 pesam entre 49 e 60 kg enquanto uma pesa 150 kg. Se utilizarmos a média nesta população observaremos um valor de 64kg, enquanto que a mediana resultaria em 56 kg. A mediana é uma função de estatística robusta, por que consegue desconsiderar os pontos fora da curva que enviesam a amostra (150 kg), enquanto que a média não.

Como identificar outliers

Os outliers podem ser sinalizados quando encontram-se fora de um intervalo da média para mais ou para menos. Este intervalo para mais ou para menos é definido pelo desvio padrão.

outlier1

No gráfico acima, possuímos as vendas históricas mensais de um determinado produto, determinada empresa. Traçamos, também, uma linha paralela demonstrando a média fixa dos 12 meses e podemos identificar os períodos em que superou-se ou ficou-se abaixo desta média. Superficialmente, podemos assumir que os meses de Maio e Outubro são outliers? Primeiramente, precisamos definir qual a faixa média de variação destas vendas, ou seja, o nosso desvio padrão da amostra, neste caso, o resultado é 343.

Significa que nossa série histórica varia em média 343 unidades para mais ou para menos.

No Excel, para calcularmos o desvio padrão utilizamos a fórmula =DESVPADA(B2:B13), sendo "B2:B13" o intervalo que contém os dados da série de vendas.

De uma distribuição normal podemos afirmar que:

 

  • 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.
  • 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.
  • 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.

Como desejamos uma análise com 95% de confiabilidade, significa que 95% das vendas descritas na série histórica deverão estar entre a média mais duas vezes o desvio padrão e a média menos duas vezes o desvio padrão, ou, x + 2.δ e  x - 2.δ, conforme descrito acima.

outlier2

Desta forma, plotando em um gráfico, criamos um limite superior (média mais duas vezes o desvio padrão - barra verde) e um limite inferior (média menos duas vezes o desvio padrão - barra roxa), e consideraremos como "pontos fora da curva" ou outliers, as observações que fugirem aos limites estipulados, como o resultado de Maio, que fica acima do limite superior de variação.

A partir daí, cabe uma análise mais profunda, mais focada e ágil, após identificação deste de ponto de interesse: O que aconteceu em Maio?

Análises de Distribuição Normal

Outra maneira de identificar outliers dentro da sua população é pela utilização de um histograma, agrupando a frequência da amostra ou população por uma determinada faixa. Através da distribuição normal podemos segregar as observações que estão dentro do esperado e as que fogem do padrão.

Conforme falamos previamente, uma distribuição normal prevê que a probabilidade da concentração aumenta quanto mais próxima da média, e diminui quanto mais afastada (quanto mais desvios padrão).

Por exemplo: Vamos assumir uma equipe de 222 vendedores, sendo avaliados quanto ao percentual de atingimento das suas respectivas metas, foram agrupados conforme a faixa de atingimento da meta, de 10% em 10%. Em quantidade e percentualmente, eles são classificados dentro da faixa de cobertura correspondente e acrescenta-se uma linha para representar a distribuição normal, da seguinte maneira:

  • Como "68% dos valores encontram-se a uma distância da média inferior a um desvio padrão" temos 34,1% para o lado esquerdo da média e 34,1% para o lado direito.
  • Como "95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão" menos os 68% (já plotados) temos 27% para o próximo segmento da cauda, ou 13,6% para cada metade e assim sucessivamente.

outlier3

Observe que o agrupamento das pessoas toma uma forma aparente de curva "normal", ou seja, a maior quantidade de pessoas está próximo à média (que é 97%).

A distribuição normal é também conhecida como distribuição de Gauss e demonstra o Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande"

No entanto, você poderá observar que existem alguns elementos desta equipe que estão claramente fora do intervalo esperado, despontando para fora do final da cauda da curva (abaixo da faixa de 60% e acima da faixa de 140%) . Aqui demonstramos, em vermelho, os outliers da equipe:

outlier4

 

Temos 4 vendedores que estão realizando muito abaixo do seu objetivo e também fora do desvio padrão esperado. Por outro lado, 8 colaboradores estão superando suas metas muito acima do esperado.

Otimizar a análise e garantir confiabilidade

Por fim, a análise de outliers é uma ferramenta que permite identificar pontos de atenção para efetuar-se uma investigação mais profunda, onde realmente pode ver-se alguma "fumaça". Aqueles que se destacam na multidão podem ser utilizados como modelo para reproduzir o caso novamente ou para identificar problemas substanciais que devem ser eliminados para evitar a ocorrência com os demais componentes.

Vamos gerar em seguida, conclusões, insights, controles de qualidade.

É também obrigatória para outras atividades tais como previsão de vendas e distribuição de metas, que dependem de uma avaliação do histórico para determinação de um número futuro, que deve ser estabelecido a partir de uma informação sem desvios que podem comprometer a confiabilidade do estudo.

down_icon Download | Modelo de gráfico para análise de outliers

 

13,769 total views, 2 views today


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

2 pensamentos em “Análise de outliers: O que é e como utilizar?