Introdução à ANOVA em R

O artigo a seguir ANOVA em R fornece um esboço para comparar o valor médio de diferentes grupos. Uma Análise de Variância (ANOVA) é uma técnica muito comum usada para comparar o valor médio de diferentes grupos. O modelo ANOVA é usado para teste de hipóteses, onde certas suposições ou parâmetros são gerados para uma população e o método estatístico é usado para determinar se a hipótese é verdadeira ou falsa.

A hipótese é derivada da suposição do pesquisador e das informações disponíveis sobre a população. A ANOVA é chamada de Análise de Variância e é usada para testes de hipóteses em que é necessário medir as médias de uma variável em vários grupos independentes.

Por exemplo, em um laboratório para estudar ou inventar um novo medicamento para obesidade, os pesquisadores compararão o resultado do tratamento experimental e padrão. Em um estudo sobre obesidade, resultados valiosos podem ser obtidos quando a taxa média de obesidade da população pode ser comparada em diferentes faixas etárias. Nesse caso, gostaríamos de observar a taxa média de obesidade entre diferentes faixas etárias, como idade (5 a 18), (19, 35) e (36 a 50). O método ANOVA é aplicado, pois existem mais de dois grupos independentes. O método ANOVA é utilizado para comparar a obesidade média dos grupos independentes. A função aov () é usada e a sintaxe é aov (fórmula, dados = quadro de dados). Neste artigo, aprenderemos sobre o modelo ANOVA e discutiremos melhor o modelo ANOVA unidirecional e bidirecional, além de exemplos.

Por que ANOVA?

  • Essa técnica é usada para responder à hipótese enquanto analisa vários grupos de dados. Existem várias abordagens estatísticas, no entanto, a ANOVA em R é aplicada quando a comparação precisa ser feita em mais de dois grupos independentes, como no exemplo anterior, em três faixas etárias diferentes.
  • A técnica ANOVA mede a média dos grupos independentes para fornecer aos pesquisadores o resultado da hipótese. Para obter resultados precisos, é necessário levar em consideração a média da amostra, o tamanho da amostra e o desvio padrão de cada grupo individual.
  • É possível observar a média individualmente para cada um dos três grupos para comparação. No entanto, essa abordagem tem limitações e pode ser incorreta, porque essas três comparações não consideram dados totais e, portanto, podem levar ao erro do tipo 1. R nos fornece a função de realizar a análise ANOVA para examinar a variabilidade entre os grupos independentes de dados. Existem cinco estágios de condução da análise ANOVA. No primeiro estágio, os dados são organizados no formato csv e a coluna é gerada para cada variável. Uma das colunas seria uma variável dependente e as restantes são a variável independente. No segundo estágio, os dados são lidos no R studio e nomeados adequadamente. No terceiro estágio, um conjunto de dados é anexado a variáveis ​​individuais e lido pela memória. Finalmente, a ANOVA em R é definida e analisada. Nas seções abaixo, forneci alguns exemplos de estudos de caso nos quais as técnicas de ANOVA devem ser usadas.
  • Seis inseticidas foram testados em 12 campos cada, e os pesquisadores contaram o número de insetos que permaneciam em cada campo. Agora, os agricultores precisam saber se os inseticidas fazem alguma diferença e, em caso afirmativo, qual deles melhor utiliza. Você responde a essa pergunta usando a função aov () para executar uma ANOVA.
  • Cinqüenta pacientes receberam um dos cinco tratamentos com drogas redutoras de colesterol (trt). Três das condições de tratamento envolveram o mesmo medicamento administrado como 20 mg uma vez por dia (1 vez) 10 mg duas vezes por dia (2 vezes) 5 mg quatro vezes por dia (4 vezes). As duas condições restantes (drugD e drugE) representavam drogas concorrentes. Qual tratamento medicamentoso produziu a maior redução de colesterol (resposta)?

ANOVA Só de ida

  • O método unidirecional é uma das técnicas básicas de ANOVA na qual a análise de variância é aplicada e o valor médio de vários grupos populacionais é comparado.
  • A ANOVA unidirecional recebeu esse nome devido à disponibilidade de dados classificados unidirecionais. Em uma ANOVA unidirecional variável dependente única e uma ou mais variáveis ​​independentes podem estar disponíveis.
  • Por exemplo, executaremos a técnica ANOVA no conjunto de dados de colesterol. O conjunto de dados consiste em duas variáveis ​​trt (que são tratamentos em 5 níveis diferentes) e variáveis ​​de resposta. Variável independente - grupos de tratamento medicamentoso, variável dependente - média de 2 ou mais grupos ANOVA. A partir desses resultados, você pode confirmar que tomar as doses de 5 mg 4 vezes ao dia foi melhor do que tomar uma dose de 20 mg uma vez ao dia. O medicamento D tem melhores efeitos quando comparado ao medicamento E

O medicamento D fornece melhores resultados se tomado em doses de 20 mg em comparação com o medicamento E

Usa o conjunto de dados de colesterol no pacote multcomp
install.packages('multcomp')
library(multcomp)
str(cholesterol)
attach(cholesterol)
aov_model <- aov(response ~ trt)

O teste ANOVA F para tratamento (trt) é significativo (p <0, 0001), fornecendo evidências de que os cinco tratamentos
# não são todos igualmente eficazes.
resumo (aov_model)
destacar (colesterol)

A função plotmeans () no pacote gplots pode ser usada para produzir um gráfico de médias de grupos e seus intervalos de confiança. Isso mostra claramente as diferenças de tratamento
install.packages('gplots')
library(gplots)
plotmeans(response ~ trt, xlab="Treatment", ylab="Response",
main="Mean Plot\nwith 95% CI")

Vamos examinar a saída de TukeyHSD () para diferenças aos pares entre médias de grupos

TukeyHSD (aov_model)

As reduções médias de colesterol por 1 e 2 vezes não são significativamente diferentes entre si (p = 0, 138), enquanto a diferença entre 1 e 4 vezes é significativamente diferente (p <0, 001).
par (mar = c (5, 8, 4, 2)) # aumenta o gráfico da margem esquerda (TukeyHSD (aov_model), las = 2)

A confiança nos resultados depende do grau em que seus dados satisfazem as suposições subjacentes aos testes estatísticos. Em uma ANOVA unidirecional, presume-se que a variável dependente seja normalmente distribuída e tenha variância igual em cada grupo. Você pode usar um gráfico de QQ para avaliar a biblioteca de suposições de normalidade (carro).
Gráfico QQ (lm (resposta ~ trt, dados = colesterol), simulação = VERDADEIRO, principal = ”Gráfico QQ”, rótulos = FALSO)

Linha pontilhada = envelope de confiança de 95%, sugerindo que a suposição de normalidade foi cumprida razoavelmente bem. A ANOVA assume que as variações são iguais entre os grupos ou amostras. O teste de Bartlett pode ser usado para verificar se essa suposição
bartlett.test (resposta ~ dados, = colesterol). O teste de Bartlett indica que as variações nos cinco grupos não diferem significativamente (p = 0, 97).

A ANOVA também é sensível ao teste de outliers para outliers usando a função outlierTest () no pacote do carro. Pode não ser necessário executar este pacote para atualizar sua biblioteca de carros.
update.packages(checkBuilt = TRUE)
install.packages("car", dependencies = TRUE)
library(car)
outlierTest(aov_model)

A partir da saída, você pode ver que não há indicação de outliers nos dados de colesterol (NA ocorre quando p> 1). Tomando o gráfico QQ, o teste de Bartlett e o teste externo, os dados parecem se encaixar muito bem no modelo ANOVA.

Anova de duas vias

Outra variável é adicionada no teste ANOVA de duas vias. Quando houver duas variáveis ​​independentes, precisaremos usar ANOVA bidirecional em vez de ANOVA unidirecional, que foi usada no caso anterior em que tínhamos uma variável dependente contínua e mais de uma variável independente. Para verificar a ANOVA bidirecional, várias suposições precisam ser atendidas.

  1. Disponibilidade de observações independentes
  2. As observações devem ser normalmente distribuídas
  3. A variação deve ser igual nas observações
  4. Outliers não devem estar presentes
  5. Erros independentes

Para verificar a ANOVA bidirecional, outra variável chamada BP é adicionada ao conjunto de dados. A variável indica a taxa de pressão arterial em pacientes. Gostaríamos de verificar se existe alguma diferença estatística entre a PA e a dosagem administrada aos pacientes.

df <- read.csv ("arquivo.csv")
df
anova_two_way <- aov (resposta ~ trt + BP, dados = df)
resumo (anova_two_way)

A partir do resultado, pode-se concluir que tanto a trt quanto a BP são estatisticamente diferentes de 0. Portanto, a hipótese nula pode ser rejeitada.

Benefícios da ANOVA em R

O teste ANOVA determina a diferença na média entre dois ou mais grupos independentes. Essa técnica é muito útil para a análise de vários itens, essencial para a análise de mercado. Usando o teste ANOVA, é possível obter as informações necessárias a partir dos dados. Por exemplo, durante uma pesquisa de produto em que várias informações, como listas de compras, gostos de clientes e desgostos, são coletadas dos usuários. O teste ANOVA nos ajuda a comparar grupos da população. O grupo pode ser masculino ou feminino ou vários grupos etários. A técnica ANOVA ajuda a distinguir entre os valores médios de diferentes grupos da população que são realmente diferentes.

Conclusão - ANOVA em R

ANOVA é um dos métodos mais comumente usados ​​para teste de hipóteses. Neste artigo, realizamos um teste ANOVA no conjunto de dados que consiste em cinquenta pacientes que receberam tratamento medicamentoso para redução do colesterol e vimos como a ANOVA bidirecional pode ser realizada quando uma variável independente adicional está disponível.

Artigos recomendados

Este é um guia para ANOVA em R. Aqui discutimos o modelo Anova unidirecional e bidirecional, juntamente com exemplos e benefícios da ANOVA. Você também pode consultar nossos outros artigos sugeridos -

  1. Regressão vs ANOVA
  2. O que é o SPSS?
  3. Como interpretar resultados usando o teste ANOVA
  4. Funções em R

Categoria: