Análise unidirecional de variância

A análise de variância escrita em breve como ANOVA é o procedimento pelo qual podemos comparar médias em três ou mais populações. Estatisticamente, estruturamos duas hipóteses, a hipótese nula: “Todas as médias populacionais são iguais” e a hipótese alternativa: “Nem todas as médias populacionais são iguais”. Ele nos permite testar a igualdade de múltiplas médias em um teste, em vez de comparar duas médias por vez, o que é inviável quando existem vários grupos. Neste tópico, vamos aprender sobre o One Way ANOVA em R.

A Análise unidirecional de variância nos ajuda a analisar apenas um fator ou variável. Por exemplo, existem cinco regiões e queremos verificar se as chuvas médias diárias para todas as cinco regiões são iguais ou se são diferentes. Nesse caso, existe apenas um fator que é a região, pois precisamos verificar se os fatores regionais afetam a recepção da chuva e o padrão.

Pressupostos da análise de variância

A seguir, são apresentadas as premissas que devem ser atendidas para a aplicação da ANOVA unidirecional:

  • As populações das quais as amostras são coletadas são normalmente distribuídas.
  • As populações das quais as amostras são coletadas têm a mesma variação ou desvio padrão.
  • As amostras colhidas em diferentes populações são aleatórias e independentes.

Como funciona a ANOVA unidirecional em R?

Para nossa demonstração, estamos usando os dados que contêm duas variáveis ​​viz. Marca e Vendas. Existem quatro marcas - ATB, JKV, MKL e PRQ. São fornecidas vendas mensais para essas marcas. Precisamos verificar se as vendas médias nas quatro marcas são iguais ou se são diferentes umas das outras. Para verificar isso, usaremos a ANOVA unidirecional. O procedimento passo a passo para implementar a ANOVA é o seguinte:

  1. Primeiro, importe os dados para R. Os dados estão presentes em um formato CSV. Portanto, para importá-lo, usaremos a função read.csv ().

  1. Veja os primeiros registros dos dados. Isso é importante para verificar se os dados foram importados corretamente para R. Da mesma forma, aplicaremos uma função summary () sobre os dados, para obter informações básicas sobre os dados.

  1. Sempre que usamos as variáveis ​​presentes no conjunto de dados, precisamos mencionar explicitamente o nome do conjunto de dados, como brand_sales_data $ Brand ou brand_sales_data $ Sales. Para superar isso, empregaremos a função anexar. A função deve ser aplicada como abaixo.

  1. Vamos agregar vendas por marca usando o desvio médio ou padrão. A agregação nos ajuda a ter uma idéia básica dos dados.

O resultado acima mostra que as médias para os quatro grupos diferentes não são iguais. JKV tem as maiores vendas médias.

Como pode ser visto acima, os desvios padrão entre os quatro grupos não mostram diferença significativa e são mais altos para a marca MKL.

  1. Agora, aplicaremos a ANOVA para validar se as médias nas três populações são iguais ou se existe alguma diferença.

A partir dos resultados acima, podemos ver que o teste ANOVA para marca é significativo por causa de p <0, 0001. Podemos interpretar que todas as marcas não têm os mesmos níveis de preferência no mercado, o que influencia a venda dessas marcas no mercado. Isso pode ser devido a muitos fatores e ao gosto das pessoas por uma determinada marca.

  1. O resultado acima pode ser visualizado e facilita a interpretação. Para isso, usaremos a função plotmeans () na biblioteca gplots (). Funciona como abaixo:

Como podemos ver acima, a função plotmeans () no pacote gplots nos permite comparar visualmente as médias de diferentes grupos. Podemos ver que os meios não são os mesmos nas quatro marcas. No entanto, os meios para as marcas MKL e PRQ estão próximos.

  1. A análise acima nos ajuda a verificar se as marcas têm meios iguais ou não, no entanto, dificulta a comparação entre pares. Podemos fazer comparações entre pares para diferentes marcas, usando a função TukeyHSD () que facilita a verificação se uma marca é significativamente diferente de qualquer uma das demais.

As comparações aos pares como acima. A diferença entre dois grupos é significativa se p <0, 001. Como podemos ver acima, o valor de p para o par PRQ-MKL é muito maior, indicando que as duas marcas não são significativamente diferentes uma da outra.

Para visualizar as comparações aos pares, traçaremos os resultados acima como abaixo:

A primeira função par gira os rótulos dos eixos, tornando-os horizontais, e a segunda instrução par ajusta as margens para que os rótulos se ajustem corretamente; caso contrário, eles sairão da tela.

O gráfico acima oferece boas informações, mas podemos plotar os resultados na forma de boxplot para obter melhores insights para uma interpretação mais clara, conforme demonstrado abaixo.

A função glht () usada acima vem com um conjunto abrangente de métodos para comparar várias médias. Observe que a opção de nível na função cld () pertence ao nível de significância, por exemplo, 0, 05 ou 95% de confiança)

Usando o gráfico acima, torna-se fácil comparar médias entre os grupos e também facilita a interpretação sistemática. Existem letras, por cima do enredo, para cada marca. Se duas marcas tiverem a mesma letra, elas não terão meios significativamente diferentes das marcas MKL e PRQ nesse caso, que terão a mesma letra b.

  1. Até agora, implementamos o ANOVA e usamos gráficos para visualizar os resultados. No entanto, é igualmente importante testar as suposições. Primeiro, validaremos a suposição de normalidade.

O pacote veicular em R fornece a função qqPlot (). O gráfico acima mostra que os dados estão dentro do envelope de confiança de 95%. Isso indica que a suposição de normalidade quase foi cumprida.

Em seguida, validaremos se as variações nas marcas são iguais. Para isso, usaremos o teste de Bartlett

O valor-p mostra que as variações no grupo não diferem significativamente

Por último, mas não menos importante, verificaremos se existem discrepâncias que afetam os resultados da ANOVA.

A partir do resultado acima, podemos ver que não há indicação de outliers nos dados (NA ocorre quando p> 1)

Levando em consideração os resultados do QQ Plot, teste de Bartlett e teste Outlier, podemos dizer que os dados atendem a todas as premissas da ANOVA e que os resultados obtidos são válidos.

Conclusão - ANOVA One Way em R

ANOVA é uma técnica estatística muito útil que pode ser usada para comparar médias em várias populações. R oferece uma gama abrangente de pacotes para implementar ANOVA, obter resultados e validar as premissas. Em R, os resultados estatísticos podem ser interpretados em formas visuais que oferecem insights mais profundos.

Artigos recomendados

Este é um guia para a ANOVA de sentido único em R. Aqui discutimos o funcionamento da ANOVA de sentido único e as premissas de análise de variância. Você também pode consultar os seguintes artigos para saber mais -

  1. R Linguagem de Programação
  2. Regressão vs ANOVA
  3. Como interpretar resultados usando o teste ANOVA
  4. GLM em R

Categoria: