Introdução ao Scatterplot em R

  • R é uma linguagem de programação de código aberto usada para estatísticas e análise de dados. Com a crescente popularidade da ciência de dados, R também ganhou popularidade. É usado principalmente por estatísticos e mineradores de dados para extrair informações valiosas dos dados. R é uma linguagem interpretada e possui uma interface de linha de comando, mas existem muitas interfaces gráficas de usuário disponíveis para facilitar os trabalhos do desenvolvedor. O R oferece uma grande variedade de bibliotecas para implementar estatísticas e técnicas gráficas. R oferece gráficos estáticos; permite que o usuário construa um gráfico em camadas. Assim, produz gráficos com qualidade de publicação e fornece uma melhor representação da informação.
  • O R oferece um enorme conjunto de bibliotecas para implementação gráfica, mas o mais popular é o "ggplot2". O GGPlot2 é uma implementação da “Gramática de gráficos”, que simplifica a criação de gráficos complexos. Ele fornece uma interface programática para especificar variáveis, sua posição, a cor do gráfico, tipos de gráfico e outras propriedades de visualização. Permite criar gráficos passo a passo, permitindo criar camadas para uma ampla flexibilidade e qualidade de publicação.
  • Um desses tipos de gráfico é o gráfico de dispersão em R. O gráfico de dispersão em R, também chamado de gráfico de dispersão, que é um tipo de gráfico que mostra a correlação entre duas variáveis. Ele mostra os pontos de dados na forma de pontos. Pode ser traçado entre uma variável independente contínua e outra variável que depende da variável anterior ou duas variáveis ​​independentes contínuas. A correlação pode ser positiva, negativa ou nula. Se a inclinação do gráfico for da esquerda inferior para a direita superior, a correlação é positiva. Se a inclinação for do canto superior esquerdo para o inferior direito, a correlação é negativa ou, em outras palavras, o aumento no valor de uma variável diminuirá no valor de outra variável.

Sintaxe: Existem muitos pacotes em R para gráficos; portanto, existem muitas funções para criar um gráfico de dispersão em R. A função mais básica e simples é

plot (x, y)

Onde

x indica o eixo horizontal ou a variável contínua independente.

y indica o eixo vertical ou a variável dependente.

Existem muitos outros parâmetros para plotar a função para facilitar a compreensão do gráfico.

Abaixo estão alguns com uma definição:

  • main: adiciona um título ao gráfico
  • xlab: adicione um rótulo ao eixo x
  • ylab: adiciona um rótulo ao eixo y
  • xlim: especifica o intervalo do eixo x
  • ylim: especifica o intervalo do eixo y
  • pch: indica a forma dos pontos no gráfico de dispersão
  • cex: indica o tamanho dos pontos
  • col: define a cor dos pontos

Um gráfico de dispersão em R pode ser criado usando o pacote ggplot2 também. Para isso, primeiro precisamos instalar e carregar o pacote ggplot2. Após adicionar o pacote à sessão atual abaixo, o comando pode ser usado para criar um gráfico de dispersão em R.

ggplot (conjunto de dados, aes (x, y, cor, forma)) + geom_poin () + labs (x, y, title)

Onde

  • o conjunto de dados é o conjunto de dados para o qual o gráfico de dispersão precisa ser criado.
  • aes () é um mapeamento estético em um gráfico. Ele descreve como as variáveis ​​são mapeadas no gráfico.
  • x é o eixo horizontal ou a variável contínua independente.
  • y é o eixo vertical ou a variável dependente.
  • color é adicionar cor aos pontos com base na variável de agrupamento.
  • a forma é usada para definir a forma com base na variável de agrupamento.
  • O sinal + indica que o comando continua.
  • geom_point () é uma função para o gráfico de dispersão.
  • laboratórios (x, y, título): adicione rótulo x, rótulo y e título ao gráfico.

Criar gráfico de dispersão em R

Para criar um gráfico de dispersão em R, primeiro precisamos carregar o conjunto de dados. Aqui estamos usando o conjunto de dados (mtcars) fornecido por R. Primeiro carregue o conjunto de dados na sessão atual usando o comando abaixo

dados (íris)

Depois que o conjunto de dados for carregado, visualize os dados para obter um entendimento básico do tipo de dados e colunas usando o comando abaixo.

íris

Depois de obter um entendimento básico dos dados, vamos criar um gráfico de dispersão simples usando a função plot

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 5.0))

Adicionando etiquetas para tornar o gráfico legível

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = "Comprimento da sépala", ylab = "Largura da sépala", main = "Largura vs comprimento ")

Adicionando mais alguns parâmetros para tornar o gráfico mais atraente

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = "Comprimento da sépala", ylab = "Largura da sépala", main = "Largura vs Comprimento ", pch = 8, cex = 1, 5, col = 6)

Além dessas plotagens 2-D, plotagens matriciais e 3-D também podem ser criadas em R.

Matrizes de gráfico de dispersão

Quando temos mais de duas variáveis ​​em um conjunto de dados e queremos encontrar uma correlação de cada variável com todas as outras variáveis, a matriz do gráfico de dispersão é usada. O comando mais básico e simples para a matriz de dispersão é:

pares (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, dados = íris, principal = "Matriz de dispersão")

O gráfico acima mostra a correlação entre peso, mpg, dsp e cyl.

Scatterplot 3D

Às vezes, um gráfico tridimensional oferece uma melhor compreensão dos dados. Por esse R fornecer vários pacotes, um deles é "scatterplot3d". Abaixo estão os comandos para instalar “scatterplot3d” no espaço de trabalho do R e carregá-lo na sessão atual

install.packages (“scatterplot3d”)

biblioteca (scatterplot3d)

Após carregar a biblioteca, a execução dos comandos abaixo criará um gráfico de dispersão 3D.

anexar (íris)

scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = “3D Scatterplot”)

Além disso, existem muitas outras maneiras de criar uma tridimensional. Os usuários também podem adicionar detalhes como cores, títulos para melhorar o gráfico. O usuário também pode criar gráficos de dispersão 3D interativos usando a função "plot3D (x, y, z)" fornecida pelo pacote "rgl". Essa função cria um gráfico de dispersão 3D giratório que pode ser girado usando um mouse. Assim, dando uma visão completa da correlação entre as variáveis.

Conclusão

R é uma das linguagens mais famosas para implementação de técnicas gráficas usadas por cientistas de dados. Ele fornece uma ampla variedade de pacotes e bibliotecas para gráficos e uma melhor compreensão dos dados. "Gglpot2", "ggvis", "rgl", "plot3d", "treliça", "animação", "gganimate", "cairo" são alguns dos pacotes fornecidos por R.

Um gráfico de dispersão é a maneira mais simples de entender melhor os dados. Usando essa visualização, o usuário pode conhecer como as variáveis ​​se relacionam, como a alteração do valor de uma variável altera o valor de outras variáveis ​​etc. A inclinação do gráfico informa sobre a relação positiva e negativa entre as variáveis.

Artigos recomendados

Este é um guia para o gráfico de dispersão em R. Aqui discutimos uma introdução, matrizes de gráficos de dispersão, gráficos de dispersão 3D, como criar gráficos de dispersão? juntamente com exemplos apropriados. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. O que é o GraphQL
  2. Framework Scrum
  3. R Perguntas da entrevista
  4. Introdução à Distribuição Binomial em R

Categoria: