Introdução aos arquivos R CSV

Os arquivos CSV são amplamente utilizados para armazenar as informações em formato tabular, cada linha sendo um registro de dados. Para ler, escrever ou manipular dados em R, precisamos ter alguns dados disponíveis conosco. Os dados podem ser encontrados na internet ou podem ser coletados de várias fontes, como pesquisas. Usando R one pode ler, escrever e editar os dados que são armazenados em um ambiente externo. O R pode ler e gravar dados de vários formatos, como XML, CSV e Excel. Neste artigo, veremos como o R pode ser usado para ler, gravar e executar diferentes operações em arquivos CSV.

Criando arquivo CSV em R

Nesta seção, veremos como um quadro de dados pode ser criado e exportado para o arquivo CSV em R. Na primeira, criaremos um quadro de dados que consiste em variáveis ​​empregado e respectivo salário.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Depois que o quadro de dados é criado, é hora de usarmos a função de exportação de R para criar o arquivo CSV em R. Para exportar o quadro de dados para CSV, podemos usar o código abaixo.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

Na linha de código acima, fornecemos um diretório de caminho para nossa fama de dados e armazenamos o quadro de dados no formato CSV. No caso acima, o arquivo CSV foi salvo na minha área de trabalho pessoal. Este arquivo específico será usado em nosso tutorial para executar várias operações.

Lendo arquivos CSV em R

Durante a análise usando R, em muitos casos, é necessário ler os dados do arquivo CSV. R é muito confiável ao ler arquivos CSV. No exemplo acima, criamos o arquivo, que usaremos para ler usando o comando read.csv. Abaixo está o exemplo para fazê-lo em R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

O comando acima lê o arquivo Employee.csv, que está disponível na área de trabalho, e o exibe no R. studio. O comando cabeçalho implica que o cabeçalho seja disponibilizado para o conjunto de dados e o comando sep implica que os dados sejam separados por vírgulas.

Gravar arquivos CSV em R

Gravar em arquivo CSV é uma das funcionalidades mais úteis disponíveis no R para um analista de dados. Isso pode ser usado para gravar um arquivo CSV editado em um novo arquivo CSV para analisar os dados. O comando Write.csv é usado para gravar o arquivo no CSV.

No código abaixo df no quadro de dados em que nossos dados estão disponíveis, o anexo é usado para especificar que o novo arquivo é criado em vez de acrescentar ou substituir o arquivo antigo. Anexar false sugere que um novo arquivo CSV seja criado. Setembro representa o campo separado por vírgula.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

Operações CSV

As operações CSV são necessárias para inspecionar os dados depois de carregados no sistema. O R possui várias funcionalidades internas para verificar e inspecionar os dados. Essas operações fornecem informações completas sobre o conjunto de dados.

Um dos comandos mais usados ​​é um resumo.

> summary(df)

O comando summary nos fornece estatísticas em colunas. A variável numérica é descrita de forma estatística, que inclui resultados estatísticos como média, min, mediana e máx. No exemplo acima, duas variáveis ​​que são Employee e Salary são segregadas e as estatísticas da variável numérica que é Salary são mostradas para nós.

O comando View () é usado para abrir o conjunto de dados em outra guia e verificá-lo manualmente.

> View(df)

A função Str fornecerá aos usuários mais detalhes sobre a coluna do conjunto de dados. No exemplo abaixo, podemos ver que a variável Employee possui Factor como tipo de dados e a variável Salary possui int (integer) como tipo de dados.

> str(df)

Em muitos casos, precisaremos ver o número total de linhas disponíveis no caso do grande conjunto de dados, para o qual podemos usar o comando nrow (). Por favor, veja o exemplo abaixo.

> # to show the total number of rows in the dataset
> nrow(df)

De maneira semelhante para exibir o número total de colunas, podemos usar o comando ncol ()

> ncol(df)

R nos permite exibir o número desejado de linhas com a ajuda do comando abaixo. Quando o n número de linhas disponíveis no conjunto de dados, podemos especificar o intervalo de linhas a serem exibidas.

> # to display first 2 rows of the data
> df(1:2, )

A operação de dados é realizada no grande conjunto de dados. Para ilustrar, baixei o conjunto de dados de código aberto da NI, na Internet.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

No conjunto de dados acima, podemos ver os nomes dos cabeçalhos ausentes e muitos valores nulos presentes. O conjunto de dados precisa ser limpo para estar pronto para análise. Na próxima etapa, os cabeçalhos serão nomes de acordo.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Agora, vamos contar o número de valores ausentes no quadro de dados e removê-los de acordo.

> # count of all missing values
> table(is.na (NiPostCode))

No comando acima, podemos ver que o número total de espaços em branco ou NA no quadro de dados é próximo a 5445148. A remoção de todos os valores nulos resultará na perda da enorme quantidade de dados; portanto, é recomendável remover as colunas em que mais da metade faltam 50% dos dados.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Conclusão

Neste tutorial, vimos como os arquivos CSV podem ser criados, lidos e anexados usando operações em R. Aprendemos como criar um novo conjunto de dados em R e depois importá-lo para o formato CSV. Vimos ainda várias operações, como renomear cabeçalho e contar o número de linhas e colunas.

Artigos recomendados

Este é um guia para arquivos R CSV. Aqui discutimos a criação, leitura e gravação de arquivo CSV em R com o CSV Operations. Você também pode consultar o seguinte artigo para saber mais -

  1. JSON vs CSV
  2. Processo de mineração de dados
  3. Carreiras em Data Analytics
  4. Excel vs CSV

Categoria: