Introdução ao R | Aula 05

Importando dados

Filosofia de publicação (Selo DC)

Apoio CEAC e UFSJ

Livro de Apoio

Usaremos Batista e Oliveira (2022):

Introdução

  • Terceiro princípio do R (Chambers, 2016): “Interfaces para outros programas são parte do R”;
  • Apesar do R Core Team ainda limitar a definição do R como um ambiente para a computação estatística, esta ferramenta se tornou tão versátil que hoje torna humilde essa definição;
  • A facilidade do R interagir com outros softwares, linguagens, etc., é muito grande, e assim pode se tornar complexo a importação e exportação de dados;
    • Ex: S, SPSS, SAS, Minitab, Python, EXCEL, SQL, …

Introdução

  • Um outro fator e tema atual é o tamanho dos bancos de dados (Big Data), e aí muitas vezes precisamos de outros recursos, como o uso de APIs, por exemplo;
  • Web scraping, Etc…
  • Hoje, temos uma grande ferramenta de exportação de documentações no R, com o uso do R Markdown!
  • Exportações interativas, por exemplo, com o uso do pacote shiny.
  • Contudo, nos limitaremos a uma breve introdução sobre o assunto: Importação/Exportação de dados!

Banco de dados

Limitaremos a:

  • Arquivos de texto: <>.txt, <>.csv;
  • Arquivos binários: <>.xls, <>.xlsx;
  • Arquivos da Web
  • Banco de dados digitados manualmente pelo console.

Em resumo o que acontecerá no R

Ideias básicas

  • Escrever/Importar um banco de dados
  • No R:
    • verificar diretório de trabalho
    • importar os dados usando read.table()
    • criar um nome e associar ao objeto de classe data.frame com os dados importados
  • No RStudio tem alguns recursos que podem facilitar a importação de dados

Preparação dos dados

No banco de dados, sempre:

  • Separar as variáveis em colunas;
  • Valores em linha;
  • Sempre a primeira linha das colunas representará o nome da variável;
  • Quanto mais caracteres diferentes do padrão ASCII, mais difícil poderá ser a leitura dos dados.

Preparação dos dados

Preparação dos dados

Sugestões ao banco de dados:

  • devemos evitar símbolos fora do padrão alfanumérico;
  • devemos evitar o uso de letras minúsculas e maiúsculas. Isso facilitará o acesso a essas variáveis. Contudo, lembramos do padrão de nomes sintáticos;
  • como o banco de dados será utilizado para que um programa faça a sua leitura, portanto, deixamos a formatação da apresentação dos dados em arquivos específico, evitando qualquer outro tipo de informação que não seja os dados;

Preparação dos dados

  • devemos evitar palavras longas, por exemplo, segundavariavel (mau escolha), segvar (boa escolha), seg_var (boa escolha);
  • devemos evitar palavras compostas com espaço entre elas. Como alternativa, usamos o símbolo “_”, por exemplo, var 2 (mau escolha), var2 (boa escolha), var_2 (boa escolha);
  • devemos evitar “.” (ponto) em palavras compostas, pois esta sintaxe é responsável pela criação de um método para uma determinada classe no sistema S3 (um dos paradigmas de orientação a objetos no R), e isto pode causar possíveis conflitos na interpretação dos dados.

Importação de dados

  • Importando <>.csv:
    • Principal característica:
      • Separação das variáveis, geralmente, por: “;”!
  • Importando <>.txt:
    • Principal característica:
      • Separação das variáveis por espaço!
      • Maior risco de erro na importação!
  • Importar arquivos do EXCEL: <>.xls, <>.xlsx - pacotes: readxl, writexl!

Importação de dados

Exemplos:

Importação de dados no RStudio

Importação de dados no R

  • Funções utilizadas: setwd(), getwd(), read.table()
  • Detalhamento da função read.table():
    • file: banco de dados;
    • header: argumento lógico, se header = TRUE, então implica dizer que as variáveis estão identificadas por um nome, isto é, a primeira linha do banco de dados representa o nome das variáveis; se header = FALSE (padrão), caso contrário;

Importação de dados no R

  • Detalhamento da função read.table():
    • sep: separador de variáveis nas colunas, o padrão é sep = "", isto é, sem espaços; no caso de arquivos de extensão: <>.csv, geralmente, usamos para este argumento sep = ";", identificando que a separação das variáveis está representada por “;”;
    • dec: separador de casas decimais, sendo o padrão dec = ".".

Questões?

Dúvidas e Sugestões

Contato

Obrigado!

https://bendeivide.github.io/courses/estgeo/

Referências

BATISTA, B. D. O.; OLIVEIRA, D. A. B. J. R básico. Ouro Branco, MG, Brasil: [s.n.], 2022.
CHAMBERS, J. M. Extending R. Boca Raton, Florida: Chapman; Hall/CRC, 2016.