domingo, 4 de outubro de 2015

E se der não normal?

Olá Galera!!!!!


Não sei se lembram, mas fiz um post a algum tempo atrás chamado "Normal ou Não normal"....lembraram? 

Bom se não lembraram, clica aqui depois e confira.

Nesse post a pergunta que ficou no fim foi "E se der não normal?"...... bom é isso que vamos conversar hoje.

Sabemos que o teste de normalidade (mais usual Anderson Darling) faz uma avaliação dos dados, trazendo um valor de p-value que pode ser maior que 0,05 ou menor que 0,05 (valor normalmente usado). 
E aí você pode se perguntar porque esse "p" é tão usado? Vou voltar rapidamente na teoria do post anterior, ok?

Para o teste de hipóteses, temos 2 situações:

H0: Os dados seguem uma distribuição normal
H1: Os dados não seguem uma distribuição normal.

A decisão de rejeitar ou aceitar H0 depende diretamente do "p-value" calculado quando fazemos o teste de normalidade:


- Se o valor de p >0,05, então a distribuição é normal (aceita H0)

- Se o valor de p<0,05, a distribuição não é normal (rejeita H0)

Bem, o p-value ou valor-p é o menor nível de significância com que não se rejeitaria a hipótese nula.
Um p-value pequeno significa que a probabilidade de se obter um valor da estatística do teste observado é improvavel, levando então à rejeitar Ho, ou seja, os dados não seguiriam uma distribuição normal....

Um resumo interessante é esse aqui:
Como vocês podem observar, se os dados são "não normais", você pode tentar uma transformação estatística.

Uma vez falei isso em um treinamento e uma pessoa me disse que isso parecia "coisa de bruxaria"...transformar dados não normais em dados normais (risos)!!! Um outro questionamento foi mais além "é lícito fazer isso? " 

A questão é que, se seus dados não são normais, você não pode usar o gráfico de distribuição normal porque você teria um resultado falso, ok?
Então algumas vezes é necessário usar cálculos, aplicar uma função aos dados, que altera seus valores para que eles sigam MAIS PERTO de uma distribuição normal. Existem dois tipos de transformações estatísticas: Box-Cox e Johnson. A mais usual é a Box-Cox.
Sim, é algo totalmente permitido dentro da teoria estatística provado com cálculos. Eu vou deixar abaixo, mas por favor....NÃO SE APEGUE A ISSO. Hoje temos softwares estatísticos que fazem esse cálculo, trazem o gráfico e o resultado.... vou deixar apenas como informativo.



(Clique na figura para ampliar)




Vamos ver um exemplo prático de uma aplicação desse cálculo acima, retirado de um site suporte do Minitab®.

Ex: Suponha que você queira realizar uma análise de capacidade sobre o tempo necessário para fornecer pizzas. Como há um tempo mínimo (limite inferior), mas não há um tempo máximo (limite superior), os dados apresentam assimetria para a direita. Uma transformação pode ser aplicada para remover esta assimetria grave nos dados.

 Nota-se uma diferença entre as distribuições dos dados sobre a reta.... após a transformações, os dados se aproximam da normalidade.

Nesse caso, continuando seu estudo, você pode utilizar os limites transformados, seguindo para o gráfico de distribuição normal, utilizando o valor de Lambda correspondente à sua transformação.

Beleza, mas como fazer isso? Vamos ao passo a passo, usando como software base o Minitab®

- A primeira coisa a fazer quando você vai estudar um parâmetro, é observar se ele é normal ou não normal (Stat - Basics Statistics - Normality Test)




 Seguindo o fluxograma lá de cima, se p-value < 0,05, uma opção é verificar se uma transformação estatística seria eficaz (Stat - Control Charts - Box-Cox Transformation)


Clique em Options e escolha uma coluna em branco onde possa ser adicionado os dados transformados e clique em OK. Note que o valor arredondado de Lambda é descrito ali como 3,00 (rounded value)










Feito isso, vá até seus resultados transformados e refaça o teste de normalidade para esses dados. Se o valor for acima de 0,05, significa que sua transformação estatística deu certo.










Note que nesse exemplo, o teste de normalidade para os valores transformados foi 0,093, ou seja, após a transformação de Box-Cox, é possível usar os dados seguindo uma distribuição aproximadamente normal.




MAS......

E se depois disso tudo o p-value continuasse menor que 0,05???? 

Aí seus dados seriam considerados não normais e deveriam ser usados de forma diferente para a avaliação de capacidade do processo..... mas isso é assunto para um outro post..... aguarde!!!

gráficos: Minitab® - versão trial

Gostou? Então curta nossa página no facebook e receba avisos das atualizações constantes







FACE: RPP PRA Q?

E-mail: rpppraq@gmail.com

Linkedin: Mirian Rascado