Introdução ao histograma em R
Neste artigo, começaremos com o histograma básico na implementação e personalizações de R. O histograma desempenha um papel importante na análise de dados para visualização dos dados. A programação R é um ambiente especial para computação estatística e fundamentos para ciência de dados. No R, os conjuntos de dados e funções de programação são agrupados na forma de pacotes. A maioria dos programas de análise visual utiliza histogramas e define a largura da lixeira como padrão. Eles permitem entender rapidamente os dados, que são um papel primordial na ciência de dados. Aqui vamos construir um histograma usando comandos R.
O que é o histograma?
O histograma é uma representação pictórica de uma distribuição de conjunto de dados com a qual poderíamos analisar facilmente qual fator possui uma quantidade maior de dados e menos dados. Em outras palavras, o histograma permite fazer gráficos de frequência cumulativos no eixo xe no eixo y. Na verdade, os histogramas usam dados agrupados e não agrupados. Para um dado agrupado, o histograma é construído considerando os limites da classe, enquanto que os dados não agrupados são necessários para formar a distribuição de frequência agrupada. Eles ajudam a analisar efetivamente o alcance e a localização dos dados. Alguma estrutura comum de histogramas é aplicada como penhasco normal e inclinado durante a distribuição dos dados.
Diferentemente de uma barra, o histograma do gráfico não possui intervalos entre as barras e as barras aqui são nomeadas como compartimentos com os quais os dados são representados em intervalos iguais. Histograma Obtém uma variável contínua e se divide em intervalos, é necessário escolher a largura correta da bandeja. A principal diferença entre o gráfico de barras e o histograma é que o primeiro usa conjuntos de dados nominais para plotar enquanto o histograma plota os conjuntos de dados contínuos. R usa a função hist () para criar histogramas. Essa função hist () usa um vetor de valores para plotar o histograma. O histograma compreende uma faixa de valores contínuos no eixo x, o eixo y plota valores freqüentes de dados no eixo x com barras de variações de altura.
Sintaxe:
A sintaxe para criar o histograma é
hist (v, main, xlab, xlim, ylim, breaks, col, border)
where v – vector with numeric values
main – denotes title of the chart
col – sets color
border -sets border color to the bar
xlab - description of x-axis
xlim - denotes to specify range of values on x-axis
ylim – specifies range values on y-axis
break – specifies the width of each bar.
Criando um histograma em R
Para análise, o histograma de finalidade requer algum conjunto de dados interno para importar no R. R e suas bibliotecas têm uma variedade de pacotes e funções gráficas. Aqui usamos o conjunto de dados suíços e de passageiros aéreos. Para calcular um histograma para um determinado valor de dados, a função hist () é usada junto com um sinal $ para selecionar a coluna específica de um dado do conjunto de dados para criar um histograma.
O exemplo a seguir calcula um histograma do valor dos dados na coluna Exame do conjunto de dados chamado Swiss.
Exemplo 1: Vamos criar um histograma simples
Código:
hist (swiss $Examination)
Resultado:
Hist é criado para um conjunto de dados suíço com um exame de coluna. isso simplesmente plota um compartimento com frequência e eixo x.
Exemplo 2: Histograma com mais argumentos
Para obter uma melhor compreensão dos histogramas, precisamos adicionar mais argumentos à função hist para otimizar a visualização do gráfico. Alterando o rótulo x e y para um intervalo de valores, os argumentos xlim e ylim são adicionados à função.
Exemplo:
hist (Air Passengers, xlim=c (150, 600), ylim=c (0, 35))
In the above example x limit varies from 150 to 600 and Y – 0 to 35.
// Adding breaks
hist (AirPassengers,
main="Histogram with more Arg",
xlab="Name List",
border="Green",
col="Orange",
xlim=c (100, 600),
ylim=c(0, 40),
breaks=5)
Resultado:
O código acima plota um histograma para os valores do conjunto de dados Air Passengers, fornece o título como "Histogram for more arg", o rótulo do eixo x como "Name List", com uma borda verde e uma cor amarela nas barras, limitando o valor de 100 a 600, os valores impressos no eixo y por 2 e tornando a largura da bandeja em 5.
Adicionando duas cores diferentes à barra
hist (swiss$Examination, col=c ("violet”, "Chocolate2"), xlab="Examination”, las =1, main=" color histogram")
Resultado:
Adicionando mais barras ao histograma
hist (swiss$Education, breaks=40, col="violet", xlab="Education", main=" Extra bar histogram")
Resultado:
Exemplo 3: Histograma em R - Retorna um valor
Air <- AirPassengers
hist (Air)
h <- hist (Air)
h
$breaks
Resultado:
Exemplo 4: Usando o argumento Break para alterar a largura da bandeja
Para ter mais pontos de interrupção entre a largura, é preferível usar o valor na função c ().
hist (AirPassengers, breaks=c (100, seq (200, 700, 150)))
Resultado:
O gráfico acima mostra a largura da barra através dos valores de sequência.
Exemplo 5: Implementando a curva de distribuição normal no histograma
Usaremos o conjunto de dados 'suíço' para os valores dos dados para desenhar um gráfico. Aqui, a curva de função () é usada para exibir a linha de distribuição.
Código:
curve (dnorm(x, mean=mean(swiss$Education), sd=sd(swiss$Education)), add=TRUE, col="red")
Resultado:
Exemplo 6: Distribuição de probabilidade de plotagem
hist (AirPassengers,
main="Histogram ",
xlab="Passengers",
border="Yellow",
col="pink",
xlim=c(100, 600),
las=2,
breaks=6,
prob = TRUE)
Criando gráficos de densidade no histograma em R
A distribuição de uma variável é criada usando a função density (). Abaixo está o exemplo com o conjunto de dados mtcars. Os gráficos de densidade ajudam na distribuição da forma.
density () // this function returns the density of the data
library(ggplot2)
d <- density (mtcars $qsec)
plot (d, main=" Density of Miles Per second")
polygon (d, col="orange",>
Resultado:
Using Line () function
hist (swiss$Examination, freq = FALSE, col=c ("violet”, "Chocolate2"),
xlab="Examination”, las =1, main=" Line Histogram")
lines(density(swiss$Examination), lwd = 4, col = "red")
O histograma a seguir em R exibe a altura à medida que um exame no eixo xe a densidade é plotada no eixo y.
Resultado:
Conclusão
É tudo sobre o histograma e, precisamente, o histograma é a maneira mais fácil de entender os dados. Como vimos em um histograma, podemos desenhar gráficos únicos e múltiplos, usando largura de compartimento, correção de eixo, mudança de cores etc. O histograma ajuda a visualizar as diferentes formas dos dados. Por fim, vimos como o histograma permite analisar conjuntos de dados e pontos médios como rótulos da classe. O histograma ajuda na alteração de intervalos para produzir uma descrição aprimorada dos dados e funciona, particularmente com dados numéricos. os histogramas são mais preferidos na análise devido à sua vantagem de exibir um grande conjunto de dados. Com base na saída, podemos distorcer visualmente os dados e é fácil fazer algumas suposições.
Artigos recomendados
Este foi um guia sobre o histograma em R. Aqui discutimos o conceito, sintaxe e como criar um histograma em R com exemplos. Você também pode consultar os seguintes artigos para saber mais -
- Exemplos de histograma
- Carreira em programação R
- Gráfico de Gantt no Tableau
- Carreira em Programação de Computadores
- Como criar um gráfico de linhas em R?