Introdução ao histograma em R

Neste artigo, começaremos com o histograma básico na implementação e personalizações de R. O histograma desempenha um papel importante na análise de dados para visualização dos dados. A programação R é um ambiente especial para computação estatística e fundamentos para ciência de dados. No R, os conjuntos de dados e funções de programação são agrupados na forma de pacotes. A maioria dos programas de análise visual utiliza histogramas e define a largura da lixeira como padrão. Eles permitem entender rapidamente os dados, que são um papel primordial na ciência de dados. Aqui vamos construir um histograma usando comandos R.

O que é o histograma?

O histograma é uma representação pictórica de uma distribuição de conjunto de dados com a qual poderíamos analisar facilmente qual fator possui uma quantidade maior de dados e menos dados. Em outras palavras, o histograma permite fazer gráficos de frequência cumulativos no eixo xe no eixo y. Na verdade, os histogramas usam dados agrupados e não agrupados. Para um dado agrupado, o histograma é construído considerando os limites da classe, enquanto que os dados não agrupados são necessários para formar a distribuição de frequência agrupada. Eles ajudam a analisar efetivamente o alcance e a localização dos dados. Alguma estrutura comum de histogramas é aplicada como penhasco normal e inclinado durante a distribuição dos dados.

Diferentemente de uma barra, o histograma do gráfico não possui intervalos entre as barras e as barras aqui são nomeadas como compartimentos com os quais os dados são representados em intervalos iguais. Histograma Obtém uma variável contínua e se divide em intervalos, é necessário escolher a largura correta da bandeja. A principal diferença entre o gráfico de barras e o histograma é que o primeiro usa conjuntos de dados nominais para plotar enquanto o histograma plota os conjuntos de dados contínuos. R usa a função hist () para criar histogramas. Essa função hist () usa um vetor de valores para plotar o histograma. O histograma compreende uma faixa de valores contínuos no eixo x, o eixo y plota valores freqüentes de dados no eixo x com barras de variações de altura.

Sintaxe:

A sintaxe para criar o histograma é

hist (v, main, xlab, xlim, ylim, breaks, col, border)
where v – vector with numeric values
main – denotes title of the chart
col – sets color
border -sets border color to the bar
xlab - description of x-axis
xlim - denotes to specify range of values on x-axis
ylim – specifies range values on y-axis
break – specifies the width of each bar.

Criando um histograma em R

Para análise, o histograma de finalidade requer algum conjunto de dados interno para importar no R. R e suas bibliotecas têm uma variedade de pacotes e funções gráficas. Aqui usamos o conjunto de dados suíços e de passageiros aéreos. Para calcular um histograma para um determinado valor de dados, a função hist () é usada junto com um sinal $ para selecionar a coluna específica de um dado do conjunto de dados para criar um histograma.

O exemplo a seguir calcula um histograma do valor dos dados na coluna Exame do conjunto de dados chamado Swiss.

Exemplo 1: Vamos criar um histograma simples

Código:

hist (swiss $Examination)

Resultado:

Hist é criado para um conjunto de dados suíço com um exame de coluna. isso simplesmente plota um compartimento com frequência e eixo x.

Exemplo 2: Histograma com mais argumentos

Para obter uma melhor compreensão dos histogramas, precisamos adicionar mais argumentos à função hist para otimizar a visualização do gráfico. Alterando o rótulo x e y para um intervalo de valores, os argumentos xlim e ylim são adicionados à função.

Exemplo:

hist (Air Passengers, xlim=c (150, 600), ylim=c (0, 35))
In the above example x limit varies from 150 to 600 and Y – 0 to 35.
// Adding breaks
hist (AirPassengers,
main="Histogram with more Arg",
xlab="Name List",
border="Green",
col="Orange",
xlim=c (100, 600),
ylim=c(0, 40),
breaks=5)

Resultado:

O código acima plota um histograma para os valores do conjunto de dados Air Passengers, fornece o título como "Histogram for more arg", o rótulo do eixo x como "Name List", com uma borda verde e uma cor amarela nas barras, limitando o valor de 100 a 600, os valores impressos no eixo y por 2 e tornando a largura da bandeja em 5.

Adicionando duas cores diferentes à barra

hist (swiss$Examination, col=c ("violet”, "Chocolate2"), xlab="Examination”, las =1, main=" color histogram")

Resultado:

Adicionando mais barras ao histograma

hist (swiss$Education, breaks=40, col="violet", xlab="Education", main=" Extra bar histogram")

Resultado:

Exemplo 3: Histograma em R - Retorna um valor

Air <- AirPassengers
hist (Air)
h <- hist (Air)
h
$breaks

Resultado:

Exemplo 4: Usando o argumento Break para alterar a largura da bandeja

Para ter mais pontos de interrupção entre a largura, é preferível usar o valor na função c ().

hist (AirPassengers, breaks=c (100, seq (200, 700, 150)))

Resultado:

O gráfico acima mostra a largura da barra através dos valores de sequência.

Exemplo 5: Implementando a curva de distribuição normal no histograma

Usaremos o conjunto de dados 'suíço' para os valores dos dados para desenhar um gráfico. Aqui, a curva de função () é usada para exibir a linha de distribuição.

Código:

curve (dnorm(x, mean=mean(swiss$Education), sd=sd(swiss$Education)), add=TRUE, col="red")

Resultado:

Exemplo 6: Distribuição de probabilidade de plotagem

hist (AirPassengers,
main="Histogram ",
xlab="Passengers",
border="Yellow",
col="pink",
xlim=c(100, 600),
las=2,
breaks=6,
prob = TRUE)

Criando gráficos de densidade no histograma em R

A distribuição de uma variável é criada usando a função density (). Abaixo está o exemplo com o conjunto de dados mtcars. Os gráficos de densidade ajudam na distribuição da forma.

density () // this function returns the density of the data
library(ggplot2)
d <- density (mtcars $qsec)
plot (d, main=" Density of Miles Per second")
polygon (d, col="orange",>

Resultado:

Using Line () function
hist (swiss$Examination, freq = FALSE, col=c ("violet”, "Chocolate2"),
xlab="Examination”, las =1, main=" Line Histogram")
lines(density(swiss$Examination), lwd = 4, col = "red")

O histograma a seguir em R exibe a altura à medida que um exame no eixo xe a densidade é plotada no eixo y.

Resultado:

Conclusão

É tudo sobre o histograma e, precisamente, o histograma é a maneira mais fácil de entender os dados. Como vimos em um histograma, podemos desenhar gráficos únicos e múltiplos, usando largura de compartimento, correção de eixo, mudança de cores etc. O histograma ajuda a visualizar as diferentes formas dos dados. Por fim, vimos como o histograma permite analisar conjuntos de dados e pontos médios como rótulos da classe. O histograma ajuda na alteração de intervalos para produzir uma descrição aprimorada dos dados e funciona, particularmente com dados numéricos. os histogramas são mais preferidos na análise devido à sua vantagem de exibir um grande conjunto de dados. Com base na saída, podemos distorcer visualmente os dados e é fácil fazer algumas suposições.

Artigos recomendados

Este foi um guia sobre o histograma em R. Aqui discutimos o conceito, sintaxe e como criar um histograma em R com exemplos. Você também pode consultar os seguintes artigos para saber mais -

  1. Exemplos de histograma
  2. Carreira em programação R
  3. Gráfico de Gantt no Tableau
  4. Carreira em Programação de Computadores
  5. Como criar um gráfico de linhas em R?

Categoria: