Introdução aos quadros de dados em R
Um quadro de dados é uma estrutura 2D (bidimensional) do tipo matriz, na qual diferentes tipos de dados, como caracteres, numéricos, etc. são aceitos. O quadro de dados é um subconjunto de uma lista que possui cada componente de igual comprimento. Basicamente, o quadro de dados é uma tabela na qual cada coluna contém valores de uma variável e cada linha contém um conjunto de valores de cada coluna.
Existem algumas características do quadro de dados.
- O nome da coluna é obrigatório
- Os nomes das linhas devem ser exclusivos
- O número de itens em cada coluna deve ser o mesmo
Etapas para criar quadros de dados em R
Vamos começar criando um quadro de dados explicado abaixo,
Etapa 1: Crie um quadro de dados de uma turma em uma escola.
Código:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Quando executamos esse código, obteremos um quadro de dados como este.
Resultado:
Aqui em nosso exemplo, o quadro de dados é muito pequeno, mas na vida real, enquanto lidamos com o problema, temos muitos dados. Então, para entender a estrutura dos dados, passamos a função Str ().
Etapa 2: adicionamos a linha abaixo em nosso código.
Código:
Str(tenthclass)
Quando executamos o código inteiro, obtemos saída.
Resultado:
A saída acima significa que temos 5 observações de 3 variáveis. Depois, explica o tipo de dados de cada variável. Como em nosso exemplo, o número do rolo é um número inteiro, o nome é caractere e as Marcas são numeradas.
Depois que entendermos a estrutura dos dados, passaremos o código abaixo mencionado para entender os dados mais estatisticamente.
Etapa 3: Agora, usaremos uma função summary ()
Código:
summary(tenthclass)
Resultado:
O resumo fornece uma melhor compreensão dos nossos dados. Ele nos dirá para dizer, mediana, quartil, Max e Min. Essas coisas nos ajudarão a tomar uma decisão melhor.
Como extrair dados de quadros de dados no R?
Aqui continuaremos o caso acima. Vamos supor que queremos saber o nome do aluno na classe 10, apenas o nome. Então, como vamos extrair?
Nosso quadro de dados se parece com isso.
roll_number Nome Marcas
1 1 João 77
2 2 Sam 87
3 3 Casey 45
4 4 Ronald 68
5 5 Mateus 95
Para obter apenas o nome como saída, passaremos o código a seguir.
Código:
onlyname = tenthclass$Name
print(onlyname)
Resultado:
Aqui, se quebrarmos o código, basta colocar o cifrão entre o nome do nosso quadro de dados e o nome da variável que queremos como saída.
Agora considere uma situação, o professor quer saber tudo sobre o rolo número 2, como é o nome dele e quanto ele marcou.
Aqui precisamos de tudo sobre o rolo número 2, para que repassemos o código abaixo mencionado.
Código:
result_rollnumber2 = tenthclass(c(2), c(1:3)) print(result_rollnumber2)
Resultado:
Expandir em quadros de dados
O quadro de dados pode ser aumentado e diminuído de tamanho adicionando ou excluindo colunas e linhas.
1. Adicionar linha
Temos dois quadros de dados. Um quadro de dados pertence à classe décima seção A e outro quadro de dados pertence à classe décima seção B. Agora, essas seções diferentes estão se mesclando em uma única classe.
Exemplo # 1: Classe 10 A
Código:
tenthclass_sectionA = data.frame(roll_number = c(1:5),
Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass_sectionA)
Resultado:
Exemplo # 2: Classe 10 B
Código:
tenthclass_sectionB = data.frame(roll_number = c(6:10), Name = c("Ria", "Justin", "Bon", "Tim", "joe"),
Marks = c(68, 98, 54, 68, 42), stringsAsFactors = FALSE)
print(tenthclass_sectionB)
Resultado:
Exemplo # 3: Função rbind ()
Agora temos que mesclar essas duas classes em uma única classe. Vamos usar a função rbind () aqui. A única limitação na adição de uma nova linha é que precisamos inserir as novas linhas na mesma estrutura que o quadro de dados existente.
Código:
new_tenthclass = rbind(tenthclass_sectionA, tenthclass_sectionB)
print(new_tenthclass)
Resultado:
2. Adicionar coluna
Agora considere um caso em que temos que adicionar detalhes de grupos sanguíneos de todos os alunos da turma 10. Adicionaremos uma nova coluna para ela e a chamaremos de "Blood_group".
Nosso quadro de dados se parece com isso.
Código:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Resultado:
Código:
tenthclass$Blood_group = c("O", "AB", "B+", "A+", "AB")
print(tenthclass)
Resultado:
Excluir linha e coluna do quadro de dados
Para excluir linha e coluna do quadro de dados, usamos a seguinte implementação de código.
1. Excluir coluna
Código:
print(tenthclass)
Resultado:
Nesse quadro de dados, se precisarmos excluir a variável do grupo sanguíneo (coluna mais à direita), passaremos o código abaixo.
Código:
tenthclass$Blood_group = NULL
print(tenthclass)
Resultado:
Ignorando o comando NULL, podemos remover diretamente a variável do nosso quadro de dados.
2. Excluir linha
Código:
print(tenthclass)
Resultado:
Agora considere uma situação em que não precisamos de marcas de John, então precisamos remover a linha superior.
Código:
tenthclass = tenthclass(-1, ) print(tenthclass)
Resultado:
Atualizar dados no quadro de dados
Código:
print(tenthclass)
Resultado:
Vamos supor que Sam tenha marcado 98 marcas, mas de acordo com as marcas do nosso quadro de dados, 87. Portanto, podemos passar o código abaixo para corrigi-lo.
Código:
tenthclass$Marks(2) = 98
print(tenthclass)
Resultado:
Conclusão
Os quadros de dados são uma forma muito comum da declaração do problema. É uma lista da variável do mesmo número de linhas com IDs de linha exclusivos. Este artigo nos ajuda a saber como podemos adicionar uma linha, adicionar uma coluna, excluir uma linha, excluir uma coluna do quadro de dados e também informa como podemos atualizar os dados no quadro de dados.
Artigos recomendados
Este é um guia para quadros de dados em R. Aqui discutimos as diferentes etapas para criar quadros de dados e como extrair dados de quadros de dados em R. Você também pode consultar os seguintes artigos para saber mais:
- Os 5 principais tipos de dados em R
- Lista de pacotes R úteis
- Arquivos R CSV
- Funções do programa R - Importância
- Fatore em R com vantagens