Introdução aos rótulos Boxplot em R

Os rótulos de boxplot ajudam na visualização de dados distribuídos em R. O gráfico representa a média, mediana e variância. Os valores são dados como uma entrada para a função boxplot (). A função Boxplot () cria o boxplot com a ajuda de dados de entrada fornecidos. Boxplot pode ser criado para variáveis ​​individuais ou um grupo.

Plotando o gráfico boxplot

  • Precisamos de cinco dados valiosos, como média, variância, mediana, primeiro e terceiro quartil.
  • Identificando se existem outliers nos dados.
  • Projete o modelo para plotar os dados.

Parâmetros na função boxplot ()

  1. fórmula: Este parâmetro permite derramar valores numéricos em vários grupos.
  2. Data :: Dados de entrada que contêm um quadro de dados ou uma lista.
  3. Subconjunto: parâmetro opcional do vetor para especificar um subconjunto para plotagem.
  4. xlab: anotação do eixo x
  5. ylab: anotação do eixo y.
  6. range: range especifica as extensões de plotagem.
  7. ação: especifique o que acontece quando há um valor nulo. Ignore a resposta ou o valor.

Criando dados aleatórios

Podemos criar dados de amostra aleatórios através da função rnorm ().

Vamos agora usar rnorm () para criar dados de amostra aleatória de 10 valores.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2))

O comando acima gera 10 valores aleatórios com média 3 e desvio padrão = 2 e os armazena no quadro de dados.

Quando imprimimos os dados, obtemos a saída abaixo.

Stat1

1 2.662022

2 2.184315

3 5.974787

4 4.536203

5 4.808296

6 3.817232

7 1.135339

8 1.583991

9 3.308994

10 4.649170

Podemos converter a mesma entrada (dados) na função boxplot que gera o gráfico.

Adicionamos mais valores aos dados e vemos como o gráfico muda.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data)

Adicionando mais valores aleatórios e usando-o para representar um gráfico.

Abaixo estão os valores armazenados na variável de dados.

STAT 1STAT 2STAT 3STAT 4
3, 7954654.218645.8275852.157315
0.9117264.091196.2608112, 26594
3, 7078283.359875.889453.714557
0, 1117724.51235.9348582, 40645
0, 6975562.159456.811472.571304
5.1292313, 26986.2500683.025175
5.4041014, 389395.6700612.9901
1, 4550663.130595.6923232, 69693
0.8686365.423115.4154352.674768
2.141133, 907286.2060592, 806656

Abaixo está o gráfico boxplot com 40 valores. Temos de 1 a 7 números no eixo y e stat1 a stat4 no eixo x.

Podemos alterar o alinhamento do texto no eixo x usando outro parâmetro chamado las = 2.

Analisando o gráfico das etiquetas R Boxplot

Nós fornecemos a entrada no quadro de dados e vemos o gráfico acima.

Para entender os dados, vejamos os valores stat1.

O gráfico representa todos os 5 valores. Começando com o valor mínimo da parte inferior e depois do terceiro quartil, média, primeiro quartil e valor mínimo.

O gráfico acima tem alinhamento de texto horizontal no eixo x.

Mudando a cor

Em todos os exemplos acima, vimos o gráfico em preto e branco. Vamos ver como mudar a cor na plotagem.

Podemos adicionar o parâmetro col = color na função boxplot ().

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col="red")
data

Abaixo podemos ver a saída do gráfico em vermelho.

Usando o mesmo código acima, podemos adicionar várias cores ao gráfico.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col=c("red", "blue", "green", "yellow")
data

Adicionando etiquetas

Podemos adicionar rótulos usando os parâmetros xlab, ylab na função boxplot ().

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", col=c("red", "blue", "green", "yellow"))
data

Usando o parâmetro principal, podemos adicionar um cabeçalho ao gráfico.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", main="Random relation", notch=TRUE, col=c("red", "blue", "green", "yellow"))
data

O parâmetro Notch é usado para tornar o gráfico mais compreensível. Como as medianas de stat1 a stat4 não correspondem no gráfico acima.

Vantagens e desvantagens do Box Plot

Vantagens

  • Resumir grandes quantidades de dados é fácil com rótulos de boxplot.
  • Exibe a faixa e a distribuição de dados no eixo.
  • Indica simetria e assimetria
  • Ajuda a identificar valores discrepantes nos dados.

Desvantagens

  • Pode ser usado apenas para dados numéricos.
  • Se houver discrepâncias nos dados, o gráfico da caixa não poderá ser preciso.

Notas:

  1. Os gráficos devem ser rotulados corretamente.
  2. Escalas são importantes; alterar escalas pode fornecer aos dados uma visão diferente.
  3. Comparar dados com escalas corretas deve ser consistente

Conclusão - R rótulos Boxplot

O agrupamento de dados é facilitado com a ajuda de boxplots. O gráfico de caixa suporta várias variáveis, bem como várias otimizações. Também podemos variar as escalas de acordo com os dados.

Boxplots podem ser usados ​​para comparar várias variáveis ​​ou conjuntos de dados.

A usabilidade do boxplot é fácil e conveniente. Precisamos de dados consistentes e rótulos adequados. Os boxplots são frequentemente usados ​​na ciência de dados e até pelas equipes de vendas para agrupar e comparar dados. O Boxplot fornece informações sobre o potencial dos dados e otimizações que podem ser feitas para aumentar as vendas.

O Boxplot é uma maneira interessante de testar os dados, fornecendo informações sobre o impacto e o potencial dos dados.

Artigos recomendados

Este é um guia para rótulos R Boxplot. Aqui discutimos os parâmetros sob a função boxplot (), como criar dados aleatórios, alterando a análise de cores e gráficos junto com as vantagens e desvantagens. Você também pode consultar o seguinte artigo para saber mais -

  1. Tipos de visualização de dados
  2. Implementação de Data Warehouse
  3. Técnicas de Ciência de Dados
  4. O que é o cubo de dados?

Categoria: