Não sei se lembram, mas fiz um post a algum tempo atrás chamado "Normal ou Não normal"....lembraram?
Bom se não lembraram, clica aqui depois e confira.
Bom se não lembraram, clica aqui depois e confira.
Nesse post a pergunta que ficou no fim foi "E se der não normal?"...... bom é isso que vamos conversar hoje.
Sabemos que o teste de normalidade (mais usual Anderson Darling) faz uma avaliação dos dados, trazendo um valor de p-value que pode ser maior que 0,05 ou menor que 0,05 (valor normalmente usado).
E aí você pode se perguntar porque esse "p" é tão usado? Vou voltar rapidamente na teoria do post anterior, ok?
Para o teste de hipóteses, temos 2 situações:
H0: Os dados seguem uma distribuição normal
H1: Os dados não seguem uma distribuição normal.
A decisão de rejeitar ou aceitar H0 depende diretamente do "p-value" calculado quando fazemos o teste de normalidade:
H1: Os dados não seguem uma distribuição normal.
A decisão de rejeitar ou aceitar H0 depende diretamente do "p-value" calculado quando fazemos o teste de normalidade:
- Se o valor de p >0,05, então a distribuição é normal (aceita H0)
- Se o valor de p<0,05, a distribuição não é normal (rejeita H0)
Bem, o p-value ou valor-p é o menor nível de significância com que não se rejeitaria a hipótese nula.
Um p-value pequeno significa que a probabilidade de se obter um valor da estatística do teste observado é improvavel, levando então à rejeitar Ho, ou seja, os dados não seguiriam uma distribuição normal....
Um resumo interessante é esse aqui:
Como vocês podem observar, se os dados são "não normais", você pode tentar uma transformação estatística.
Uma vez falei isso em um treinamento e uma pessoa me disse que isso parecia "coisa de bruxaria"...transformar dados não normais em dados normais (risos)!!! Um outro questionamento foi mais além "é lícito fazer isso? "
A questão é que, se seus dados não são normais, você não pode usar o gráfico de distribuição normal porque você teria um resultado falso, ok?
Então algumas vezes é necessário usar cálculos, aplicar uma função aos dados, que altera seus valores para que eles sigam MAIS PERTO de uma distribuição normal. Existem dois tipos de transformações estatísticas: Box-Cox e Johnson. A mais usual é a Box-Cox.
Sim, é algo totalmente permitido dentro da teoria estatística provado com cálculos. Eu vou deixar abaixo, mas por favor....NÃO SE APEGUE A ISSO. Hoje temos softwares estatísticos que fazem esse cálculo, trazem o gráfico e o resultado.... vou deixar apenas como informativo.
(Clique na figura para ampliar)
Vamos ver um exemplo prático de uma aplicação desse cálculo acima, retirado de um site suporte do Minitab®.
Ex: Suponha que você queira realizar uma análise de capacidade sobre o tempo necessário para fornecer pizzas. Como há um tempo mínimo (limite inferior), mas não há um tempo máximo (limite superior), os dados apresentam assimetria para a direita. Uma transformação pode ser aplicada para remover esta assimetria grave nos dados.
Nesse caso, continuando seu estudo, você pode utilizar os limites transformados, seguindo para o gráfico de distribuição normal, utilizando o valor de Lambda correspondente à sua transformação.
Beleza, mas como fazer isso? Vamos ao passo a passo, usando como software base o Minitab®
Seguindo o fluxograma lá de cima, se p-value < 0,05, uma opção é verificar se uma transformação estatística seria eficaz (Stat - Control Charts - Box-Cox Transformation)
Clique em Options e escolha uma coluna em branco onde possa ser adicionado os dados transformados e clique em OK. Note que o valor arredondado de Lambda é descrito ali como 3,00 (rounded value)
Feito isso, vá até seus resultados transformados e refaça o teste de normalidade para esses dados. Se o valor for acima de 0,05, significa que sua transformação estatística deu certo.
Note que nesse exemplo, o teste de normalidade para os valores transformados foi 0,093, ou seja, após a transformação de Box-Cox, é possível usar os dados seguindo uma distribuição aproximadamente normal.
MAS......
E se depois disso tudo o p-value continuasse menor que 0,05????
Aí seus dados seriam considerados não normais e deveriam ser usados de forma diferente para a avaliação de capacidade do processo..... mas isso é assunto para um outro post..... aguarde!!!
gráficos: Minitab® - versão trial
Gostou? Então curta nossa página no facebook e receba avisos das atualizações constantes
FACE: RPP PRA Q?
E-mail: rpppraq@gmail.com
Linkedin: Mirian Rascado