Gráficos em R - Tipos de gráficos em R & exemplos com implementação

Índice:

Anonim

Introdução aos gráficos em R

Um gráfico é uma ferramenta que faz uma diferença significativa na análise. Gráficos em Raros importantes, pois ajudam a apresentar resultados da maneira mais interativa. R, como um pacote de programação estatística, oferece diversas opções para gerar uma variedade de gráficos.

Alguns dos gráficos em R estão disponíveis na instalação base, mas outros podem ser usados ​​instalando pacotes necessários. A característica exclusiva dos gráficos em R é que eles explicam descobertas estatísticas complexas por meio de visualizações. Então, essencialmente, é como mover um passo acima da maneira tradicional de visualizar os dados. R, portanto, oferece uma abordagem pronta para conduzir análises.

Tipos de gráficos em R

Uma variedade de gráficos está disponível em R, e o uso é regido exclusivamente pelo contexto. No entanto, a análise exploratória requer o uso de certos gráficos em R, que devem ser usados ​​para analisar dados. Vamos agora examinar alguns desses gráficos importantes em R.

Para a demonstração de vários gráficos, usaremos o conjunto de dados "árvores" disponível na instalação base. Mais detalhes sobre o conjunto de dados podem ser descobertos usando? comando de árvores em R.

1. Histograma

Um histograma é uma ferramenta gráfica que funciona em uma única variável. Numerosos valores de variáveis ​​são agrupados em posições e são calculados vários valores denominados como a frequência. Esse cálculo é usado para plotar barras de frequência nos respectivos beans. A altura de uma barra é representada pela frequência.

Em R , podemos empregar a função hist () como mostrado abaixo, para gerar o histograma. Um simples histograma das alturas das árvores é mostrado abaixo.

Código:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Resultado:

Para entender a tendência da frequência, podemos adicionar um gráfico de densidade sobre o histograma acima. Isso oferece mais informações sobre distribuição de dados, assimetria, curtose etc. O código a seguir faz isso e a saída é mostrada após o código.

Código:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Resultado:

2. Gráfico de Dispersão

Esse gráfico é um tipo de gráfico simples, mas muito crucial, com um tremendo significado. O gráfico fornece a idéia sobre uma correlação entre variáveis ​​e é uma ferramenta útil em uma análise exploratória.

O código a seguir gera um gráfico de gráfico de dispersão simples. Nós adicionamos uma linha de tendência para entender a tendência, os dados representam.

Código:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Resultado:

O gráfico criado pelo código a seguir mostra que existe uma boa correlação entre a circunferência da árvore e o volume da árvore.

Código:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Resultado:

Matrizes de gráfico de dispersão

R nos permite comparar várias variáveis ​​ao mesmo tempo, porque utiliza matrizes de dispersão. A implementação da visualização é bastante simples e pode ser alcançada usando a função pairs (), como mostrado abaixo.

Código:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Resultado:

Scatterplot3d

Eles possibilitam a visualização em três dimensões, o que pode ajudar a entender o relacionamento entre várias variáveis. Portanto, para disponibilizar gráficos de dispersão em 3d, primeiro o pacote scatterplot3d deve ser instalado. Portanto, o código a seguir gera um gráfico 3d, como mostrado abaixo do código.

Código:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Resultado:

Podemos adicionar linhas e cores suspensas, usando o código abaixo. Agora, podemos distinguir convenientemente entre diferentes variáveis.

Código:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Resultado:

3. Boxplot

Boxplot é uma maneira de visualizar dados através de caixas e bigodes. Primeiro, os valores das variáveis ​​são classificados em ordem crescente e, em seguida, os dados são divididos em quartos.

A caixa no gráfico é o meio de 50% dos dados, conhecido como IQR. A linha preta na caixa representa a mediana.

Código:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Resultado:

Uma variante do boxplot, com entalhes, é mostrada abaixo.

Código:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Resultado:

4. Gráfico de linhas

Os gráficos de linhas são úteis ao comparar várias variáveis. Eles nos ajudam a relacionar várias variáveis ​​em um único gráfico. Na ilustração a seguir, tentaremos entender a tendência de três recursos de árvore. Portanto, conforme mostrado no código abaixo, inicialmente, e o gráfico de linhas do Girth é plotado usando a função plot (). Em seguida, os gráficos de linhas para Altura e Volume são plotados no mesmo gráfico usando a função lines ().

O parâmetro "ylim" na função plot () foi para acomodar corretamente os três gráficos de linhas. Ter legenda é importante aqui, pois ajuda a entender qual linha representa qual variável. Na legenda "lty = 1: 1", o parâmetro significa que temos o mesmo tipo de linha para todas as variáveis, e "cex" representa o tamanho dos pontos.

Código:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Resultado:

5. Gráfico de pontos

Essa ferramenta de visualização é útil se quisermos comparar várias categorias com uma determinada medida. Para a ilustração abaixo, o conjunto de dados mtcars foi usado. A função dotchart () plota o deslocamento para vários modelos de carros, como abaixo.

Código:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Resultado:

Então, agora vamos classificar o conjunto de dados nos valores de deslocamento e, em seguida, plotá-los por diferentes marchas usando a função dotchart ().

Código:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Resultado:

Conclusão

A análise, no verdadeiro sentido, é alavancada apenas por meio de visualizações. R, como ferramenta estatística, oferece fortes recursos de visualização. Portanto, as inúmeras opções associadas aos gráficos são o que os torna especiais. Cada um dos gráficos tem sua própria aplicação e o gráfico deve ser estudado antes de aplicá-lo a um problema.

Artigos recomendados

Este é um guia para gráficos em R. Aqui discutimos a introdução e os tipos de gráficos em R, como histograma, gráfico de dispersão, gráfico de caixa e muito mais, juntamente com exemplos e implementação. Você também pode consultar os seguintes artigos para saber mais -

  1. Tipos de dados R
  2. Pacotes R
  3. Introdução ao Matlab
  4. Gráficos vs Gráficos