Introdução aos rótulos Boxplot em R
Os rótulos de boxplot ajudam na visualização de dados distribuídos em R. O gráfico representa a média, mediana e variância. Os valores são dados como uma entrada para a função boxplot (). A função Boxplot () cria o boxplot com a ajuda de dados de entrada fornecidos. Boxplot pode ser criado para variáveis individuais ou um grupo.
Plotando o gráfico boxplot
- Precisamos de cinco dados valiosos, como média, variância, mediana, primeiro e terceiro quartil.
- Identificando se existem outliers nos dados.
- Projete o modelo para plotar os dados.
Parâmetros na função boxplot ()
- fórmula: Este parâmetro permite derramar valores numéricos em vários grupos.
- Data :: Dados de entrada que contêm um quadro de dados ou uma lista.
- Subconjunto: parâmetro opcional do vetor para especificar um subconjunto para plotagem.
- xlab: anotação do eixo x
- ylab: anotação do eixo y.
- range: range especifica as extensões de plotagem.
- ação: especifique o que acontece quando há um valor nulo. Ignore a resposta ou o valor.
Criando dados aleatórios
Podemos criar dados de amostra aleatórios através da função rnorm ().
Vamos agora usar rnorm () para criar dados de amostra aleatória de 10 valores.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2))
O comando acima gera 10 valores aleatórios com média 3 e desvio padrão = 2 e os armazena no quadro de dados.
Quando imprimimos os dados, obtemos a saída abaixo.
Stat1
1 2.662022
2 2.184315
3 5.974787
4 4.536203
5 4.808296
6 3.817232
7 1.135339
8 1.583991
9 3.308994
10 4.649170
Podemos converter a mesma entrada (dados) na função boxplot que gera o gráfico.
Adicionamos mais valores aos dados e vemos como o gráfico muda.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data)
Adicionando mais valores aleatórios e usando-o para representar um gráfico.
Abaixo estão os valores armazenados na variável de dados.
STAT 1 | STAT 2 | STAT 3 | STAT 4 |
3, 795465 | 4.21864 | 5.827585 | 2.157315 |
0.911726 | 4.09119 | 6.260811 | 2, 26594 |
3, 707828 | 3.35987 | 5.88945 | 3.714557 |
0, 111772 | 4.5123 | 5.934858 | 2, 40645 |
0, 697556 | 2.15945 | 6.81147 | 2.571304 |
5.129231 | 3, 2698 | 6.250068 | 3.025175 |
5.404101 | 4, 38939 | 5.670061 | 2.9901 |
1, 455066 | 3.13059 | 5.692323 | 2, 69693 |
0.868636 | 5.42311 | 5.415435 | 2.674768 |
2.14113 | 3, 90728 | 6.206059 | 2, 806656 |
Abaixo está o gráfico boxplot com 40 valores. Temos de 1 a 7 números no eixo y e stat1 a stat4 no eixo x.
Podemos alterar o alinhamento do texto no eixo x usando outro parâmetro chamado las = 2.
Analisando o gráfico das etiquetas R Boxplot
Nós fornecemos a entrada no quadro de dados e vemos o gráfico acima.
Para entender os dados, vejamos os valores stat1.
O gráfico representa todos os 5 valores. Começando com o valor mínimo da parte inferior e depois do terceiro quartil, média, primeiro quartil e valor mínimo.
O gráfico acima tem alinhamento de texto horizontal no eixo x.
Mudando a cor
Em todos os exemplos acima, vimos o gráfico em preto e branco. Vamos ver como mudar a cor na plotagem.
Podemos adicionar o parâmetro col = color na função boxplot ().
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col="red")
data
Abaixo podemos ver a saída do gráfico em vermelho.
Usando o mesmo código acima, podemos adicionar várias cores ao gráfico.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col=c("red", "blue", "green", "yellow")
data
Adicionando etiquetas
Podemos adicionar rótulos usando os parâmetros xlab, ylab na função boxplot ().
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", col=c("red", "blue", "green", "yellow"))
data
Usando o parâmetro principal, podemos adicionar um cabeçalho ao gráfico.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", main="Random relation", notch=TRUE, col=c("red", "blue", "green", "yellow"))
data
O parâmetro Notch é usado para tornar o gráfico mais compreensível. Como as medianas de stat1 a stat4 não correspondem no gráfico acima.
Vantagens e desvantagens do Box Plot
Vantagens
- Resumir grandes quantidades de dados é fácil com rótulos de boxplot.
- Exibe a faixa e a distribuição de dados no eixo.
- Indica simetria e assimetria
- Ajuda a identificar valores discrepantes nos dados.
Desvantagens
- Pode ser usado apenas para dados numéricos.
- Se houver discrepâncias nos dados, o gráfico da caixa não poderá ser preciso.
Notas:
- Os gráficos devem ser rotulados corretamente.
- Escalas são importantes; alterar escalas pode fornecer aos dados uma visão diferente.
- Comparar dados com escalas corretas deve ser consistente
Conclusão - R rótulos Boxplot
O agrupamento de dados é facilitado com a ajuda de boxplots. O gráfico de caixa suporta várias variáveis, bem como várias otimizações. Também podemos variar as escalas de acordo com os dados.
Boxplots podem ser usados para comparar várias variáveis ou conjuntos de dados.
A usabilidade do boxplot é fácil e conveniente. Precisamos de dados consistentes e rótulos adequados. Os boxplots são frequentemente usados na ciência de dados e até pelas equipes de vendas para agrupar e comparar dados. O Boxplot fornece informações sobre o potencial dos dados e otimizações que podem ser feitas para aumentar as vendas.
O Boxplot é uma maneira interessante de testar os dados, fornecendo informações sobre o impacto e o potencial dos dados.
Artigos recomendados
Este é um guia para rótulos R Boxplot. Aqui discutimos os parâmetros sob a função boxplot (), como criar dados aleatórios, alterando a análise de cores e gráficos junto com as vantagens e desvantagens. Você também pode consultar o seguinte artigo para saber mais -
- Tipos de visualização de dados
- Implementação de Data Warehouse
- Técnicas de Ciência de Dados
- O que é o cubo de dados?