Como (e por que) usar a função de outliers no Excel

Um valor discrepante é um valor significativamente maior ou menor do que a maioria dos valores em seus dados. Ao usar o Excel para analisar dados, os outliers podem distorcer os resultados. Por exemplo, a média média de um conjunto de dados pode realmente refletir seus valores. O Excel fornece algumas funções úteis para ajudar a gerenciar seus outliers, então vamos dar uma olhada.

Um exemplo rápido

Na imagem abaixo, os outliers são razoavelmente fáceis de detectar – o valor de dois atribuído a Eric e o valor de 173 atribuído a Ryan. Em um conjunto de dados como esse, é fácil identificar e lidar com esses outliers manualmente.

Faixa de valores contendo outliers

Em um conjunto maior de dados, esse não será o caso. Ser capaz de identificar os outliers e removê-los de cálculos estatísticos é importante – e é isso que veremos como fazer neste artigo.

Como Encontrar Outliers em seus Dados

Para encontrar os outliers em um conjunto de dados, usamos as seguintes etapas:

  1. Calcule o primeiro e o terceiro quartis (falaremos sobre o que são daqui a pouco).
  2. Avalie o intervalo interquartil (também iremos explicar isso um pouco mais adiante).
  3. Retorne os limites superior e inferior de nosso intervalo de dados.
  4. Use esses limites para identificar os pontos de dados remotos.

O intervalo de células à direita do conjunto de dados visto na imagem abaixo será usado para armazenar esses valores.

Intervalo para quartis

Vamos começar.

Recomendado:  Como aumentar e diminuir o zoom de um documento do Word

Etapa um: calcular os quartis

Se você dividir seus dados em trimestres, cada um desses conjuntos é chamado de quartil. Os 25% mais baixos dos números no intervalo constituem o primeiro quartil, os próximos 25% o segundo quartil e assim por diante. Tomamos esta etapa primeiro porque a definição mais amplamente usada de um outlier é um ponto de dados que está mais de 1,5 intervalos interquartílicos (IQRs) abaixo do primeiro quartil e 1,5 intervalos interquartil acima do terceiro quartil. Para determinar esses valores, primeiro temos que descobrir quais são os quartis.

O Excel fornece uma função QUARTILE para calcular quartis. Requer duas informações: o array e o quart.

= QUARTIL (matriz, quarto)

A matriz é o intervalo de valores que você está avaliando. E o quarto é um número que representa o quartil que você deseja retornar (por exemplo, 1 para o quartil, 2 para o 2º quartil e assim por diante).

Observação: no Excel 2010, a Microsoft lançou as funções QUARTILE.INC e QUARTILE.EXC como melhorias para a função QUARTILE. QUARTILE é mais compatível com versões anteriores ao trabalhar em várias versões do Excel.

Voltemos à nossa tabela de exemplo.

Intervalo para quartis

Para calcular o quartil, podemos usar a seguinte fórmula na célula F2.

= QUARTIL (B2: B14,1)

Conforme você insere a fórmula, o Excel fornece uma lista de opções para o argumento quart.

Para calcular o quartil, podemos inserir uma fórmula como a anterior na célula F3, mas usando três em vez de um.

= QUARTIL (B2: B14,3)

Agora, temos os pontos de dados quartil exibidos nas células.

Valores de 1º e 3º quartil

Etapa dois: avaliar o intervalo interquartil

O intervalo interquartil (ou IQR) é o meio de 50% dos valores em seus dados. É calculado como a diferença entre o valor do 1º quartil e o valor do 3º quartil.

Recomendado:  Como usar a restauração do sistema no Windows 7, 8 e 10

Vamos usar uma fórmula simples na célula F4 que subtrai o quartil do quartil:

= F3-F2

Agora, podemos ver nosso intervalo interquartil exibido.

Valor interquartil

Etapa três: retornar os limites inferior e superior

Os limites inferior e superior são os menores e maiores valores do intervalo de dados que desejamos usar. Quaisquer valores menores ou maiores do que esses valores limitados são os outliers.

Iremos calcular o limite inferior na célula F5 multiplicando o valor IQR por 1,5 e, em seguida, subtraindo-o do ponto de dados Q1:

= F2- (1,5 * F4)

Fórmula do Excel para valor limite inferior

Nota: Os colchetes nesta fórmula não são necessários porque a parte da multiplicação será calculada antes da parte da subtração, mas eles tornam a fórmula mais fácil de ler.

Para calcular o limite superior na célula F6, multiplicaremos o IQR por 1,5 novamente, mas, desta vez, adicioná- lo ao ponto de dados Q3:

= F3 + (1,5 * F4)

Valores de limite inferior e superior

Etapa quatro: identificar os outliers

Agora que temos todos os nossos dados subjacentes configurados, é hora de identificar nossos pontos de dados periféricos – aqueles que são inferiores ao valor do limite inferior ou superiores ao valor do limite superior.

Usaremos a função OR  para realizar este teste lógico e mostrar os valores que atendem a esses critérios, inserindo a seguinte fórmula na célula C2:

= OU (B2 <$ F $ 5, B2> $ F $ 6)

OU função para identificar outliers

Em seguida, copiaremos esse valor em nossas células C3-C14. Um valor TRUE indica um outlier e, como você pode ver, temos dois em nossos dados.

Ignorando os outliers ao calcular a média média

Usando a função QUARTILE, vamos calcular o IQR e trabalhar com a definição mais amplamente usada de um outlier. No entanto, ao calcular a média média para uma faixa de valores e ignorar outliers, existe uma função mais rápida e fácil de usar. Esta técnica não identificará um outlier como antes, mas nos permitirá ser flexíveis com o que podemos considerar nossa porção outlier.

Recomendado:  PSA: o Linux não o força a fazer login em uma conta da Microsoft

A função de que precisamos é chamada TRIMMEAN, e você pode ver a sintaxe dela abaixo:

= TRIMMEAN (matriz, porcentagem)

A matriz é o intervalo de valores que você deseja calcular a média. A porcentagem é a porcentagem de pontos de dados a serem excluídos da parte superior e inferior do conjunto de dados (você pode inseri-la como uma porcentagem ou um valor decimal).

Inserimos a fórmula abaixo na célula D3 em nosso exemplo para calcular a média e excluir 20% dos outliers.

= TRIMMEAN (B2: B14, 20%)

Fórmula TRIMMEAN para média excluindo outliers


Lá você tem duas funções diferentes para lidar com outliers. Quer você queira identificá-los para algumas necessidades de relatório ou excluí-los de cálculos como médias, o Excel tem uma função para atender às suas necessidades.