Introdução aos gráficos em R
Um gráfico é uma ferramenta que faz uma diferença significativa na análise. Gráficos em Raros importantes, pois ajudam a apresentar resultados da maneira mais interativa. R, como um pacote de programação estatística, oferece diversas opções para gerar uma variedade de gráficos.
Alguns dos gráficos em R estão disponíveis na instalação base, mas outros podem ser usados instalando pacotes necessários. A característica exclusiva dos gráficos em R é que eles explicam descobertas estatísticas complexas por meio de visualizações. Então, essencialmente, é como mover um passo acima da maneira tradicional de visualizar os dados. R, portanto, oferece uma abordagem pronta para conduzir análises.
Tipos de gráficos em R
Uma variedade de gráficos está disponível em R, e o uso é regido exclusivamente pelo contexto. No entanto, a análise exploratória requer o uso de certos gráficos em R, que devem ser usados para analisar dados. Vamos agora examinar alguns desses gráficos importantes em R.
Para a demonstração de vários gráficos, usaremos o conjunto de dados "árvores" disponível na instalação base. Mais detalhes sobre o conjunto de dados podem ser descobertos usando? comando de árvores em R.
1. Histograma
Um histograma é uma ferramenta gráfica que funciona em uma única variável. Numerosos valores de variáveis são agrupados em posições e são calculados vários valores denominados como a frequência. Esse cálculo é usado para plotar barras de frequência nos respectivos beans. A altura de uma barra é representada pela frequência.
Em R , podemos empregar a função hist () como mostrado abaixo, para gerar o histograma. Um simples histograma das alturas das árvores é mostrado abaixo.
Código:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Resultado:
Para entender a tendência da frequência, podemos adicionar um gráfico de densidade sobre o histograma acima. Isso oferece mais informações sobre distribuição de dados, assimetria, curtose etc. O código a seguir faz isso e a saída é mostrada após o código.
Código:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Resultado:
2. Gráfico de Dispersão
Esse gráfico é um tipo de gráfico simples, mas muito crucial, com um tremendo significado. O gráfico fornece a idéia sobre uma correlação entre variáveis e é uma ferramenta útil em uma análise exploratória.
O código a seguir gera um gráfico de gráfico de dispersão simples. Nós adicionamos uma linha de tendência para entender a tendência, os dados representam.
Código:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Resultado:
O gráfico criado pelo código a seguir mostra que existe uma boa correlação entre a circunferência da árvore e o volume da árvore.
Código:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Resultado:
Matrizes de gráfico de dispersão
R nos permite comparar várias variáveis ao mesmo tempo, porque utiliza matrizes de dispersão. A implementação da visualização é bastante simples e pode ser alcançada usando a função pairs (), como mostrado abaixo.
Código:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Resultado:
Scatterplot3d
Eles possibilitam a visualização em três dimensões, o que pode ajudar a entender o relacionamento entre várias variáveis. Portanto, para disponibilizar gráficos de dispersão em 3d, primeiro o pacote scatterplot3d deve ser instalado. Portanto, o código a seguir gera um gráfico 3d, como mostrado abaixo do código.
Código:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Resultado:
Podemos adicionar linhas e cores suspensas, usando o código abaixo. Agora, podemos distinguir convenientemente entre diferentes variáveis.
Código:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Resultado:
3. Boxplot
Boxplot é uma maneira de visualizar dados através de caixas e bigodes. Primeiro, os valores das variáveis são classificados em ordem crescente e, em seguida, os dados são divididos em quartos.
A caixa no gráfico é o meio de 50% dos dados, conhecido como IQR. A linha preta na caixa representa a mediana.
Código:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Resultado:
Uma variante do boxplot, com entalhes, é mostrada abaixo.
Código:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Resultado:
4. Gráfico de linhas
Os gráficos de linhas são úteis ao comparar várias variáveis. Eles nos ajudam a relacionar várias variáveis em um único gráfico. Na ilustração a seguir, tentaremos entender a tendência de três recursos de árvore. Portanto, conforme mostrado no código abaixo, inicialmente, e o gráfico de linhas do Girth é plotado usando a função plot (). Em seguida, os gráficos de linhas para Altura e Volume são plotados no mesmo gráfico usando a função lines ().
O parâmetro "ylim" na função plot () foi para acomodar corretamente os três gráficos de linhas. Ter legenda é importante aqui, pois ajuda a entender qual linha representa qual variável. Na legenda "lty = 1: 1", o parâmetro significa que temos o mesmo tipo de linha para todas as variáveis, e "cex" representa o tamanho dos pontos.
Código:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Resultado:
5. Gráfico de pontos
Essa ferramenta de visualização é útil se quisermos comparar várias categorias com uma determinada medida. Para a ilustração abaixo, o conjunto de dados mtcars foi usado. A função dotchart () plota o deslocamento para vários modelos de carros, como abaixo.
Código:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Resultado:
Então, agora vamos classificar o conjunto de dados nos valores de deslocamento e, em seguida, plotá-los por diferentes marchas usando a função dotchart ().
Código:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Resultado:
Conclusão
A análise, no verdadeiro sentido, é alavancada apenas por meio de visualizações. R, como ferramenta estatística, oferece fortes recursos de visualização. Portanto, as inúmeras opções associadas aos gráficos são o que os torna especiais. Cada um dos gráficos tem sua própria aplicação e o gráfico deve ser estudado antes de aplicá-lo a um problema.
Artigos recomendados
Este é um guia para gráficos em R. Aqui discutimos a introdução e os tipos de gráficos em R, como histograma, gráfico de dispersão, gráfico de caixa e muito mais, juntamente com exemplos e implementação. Você também pode consultar os seguintes artigos para saber mais -
- Tipos de dados R
- Pacotes R
- Introdução ao Matlab
- Gráficos vs Gráficos