Introdução às ferramentas do Hadoop

As Ferramentas do Hadoop são a estrutura usada para processar uma grande quantidade de dados. Esses dados são distribuídos em um cluster e a computação distribuída é feita. Os dados são armazenados em blocos de tamanho de 128 Mb e, para processar e obter um resultado, o Map Reduce é usado. Tradicionalmente, Map e Reduce eram escritos em Java, mas era difícil cruzar a habilidade dos recursos que trabalhavam no data warehouse, pois eles não possuíam experiência nele. O SQL é bem conhecido e fácil de usar; portanto, ao encontrar uma maneira de escrever um SQL como uma consulta que é convertida em Map and Reduce, foi fundada pelo Facebook e posteriormente doada ao Apache, essa ferramenta é conhecida como Hive. O Yahoo também criou uma ferramenta chamada Pig, que é convertida em Map Reduce na execução. Da mesma forma, temos Sqoop e flume para ferramentas de movimentação e injeção de dados. HBase é uma ferramenta de sistema de gerenciamento de banco de dados.

Recursos do Hadoop Tools

  1. Colmeia
  2. Porco
  3. Sqoop
  4. HBase
  5. Funcionário do zoológico
  6. Flume

Agora veremos os recursos com uma breve explicação.

1. Colméia

O Apache Hive foi fundado pelo Facebook e posteriormente doado à Apache Foundation, que é uma infraestrutura de data warehouse, facilita a escrita de SQL como Query, chamado HQL ou HiveQL. Essas consultas são convertidas internamente em tarefas do Map Reduce e o processamento é feito utilizando a computação distribuída do Hadoop. Ele pode processar os dados que residem no HDFS, S3 e todo o armazenamento compatível com o Hadoop. Podemos aproveitar os recursos fornecidos pelo Map Reduce sempre que encontrarmos algo difícil de implementar no Hive implementando nas Funções Definidas pelo Usuário. Permite ao usuário registrar UDFs e usá-lo nos trabalhos.

Recursos do Hive

  • O Hive pode processar muitos tipos de formatos de arquivo, como Arquivo de Sequência, Arquivo ORC, TextFile etc.
  • Particionamento, Bucketing e Indexação estão disponíveis para execução mais rápida.
  • Os dados compactados também podem ser carregados em uma tabela de seção.
  • Tabelas gerenciadas ou internas e tabelas externas são os principais recursos do Hive.

2. Porco

O Yahoo desenvolveu o Apache Pig para ter uma ferramenta adicional para fortalecer o Hadoop, com uma maneira ad-hoc de implementar o Map Reduce. O Pig está tendo um mecanismo chamado Pig Engine, que converte scripts em Map Reduce. Pig é uma linguagem de script, os scripts escritos para Pig estão em PigLatin, assim como o Hive aqui também podemos ter UDFs para aprimorar a funcionalidade. As tarefas no Pig são otimizadas automaticamente para que os programadores não precisem se preocupar com isso. Pig Lida com dados estruturados e não estruturados.

Características do Pig

  • Os usuários podem ter suas próprias funções para executar um tipo especial de processamento de dados.
  • É fácil escrever códigos no Pig comparativamente também, o tamanho do código é menor.
  • O sistema pode otimizar automaticamente a execução.

3. Sqoop

O Sqoop é usado para transferir dados do HDFS para RDBMS e vice-versa. Podemos extrair os dados para o HDFS do RDBMS, Hive, etc. e podemos processá-los e exportá-los de volta para o RDBMS. Podemos acrescentar os dados muitas vezes em uma tabela, também podemos criar um trabalho do Sqoop e executá-lo várias vezes.

Recursos do Sqoop

  • O Sqoop pode importar todas as tabelas de uma vez para o HDFS.
  • Podemos incorporar consultas SQL, bem como condições na importação de dados.
  • Podemos importar dados para a seção, se houver uma tabela do HDFS.
  • O número de mapeadores pode ser controlado, ou seja, a execução paralela pode ser controlada especificando o número de mapeadores.

4. HBase

O sistema de gerenciamento de banco de dados sobre o HDFS é chamado de HBase. O HBase é um banco de dados NoSQL, desenvolvido sobre o HDFS. O HBase não é um banco de dados relacional, ele não suporta linguagens de consulta estruturada. O HBase utiliza processamento distribuído de HDFS. Pode ter tabelas grandes com milhões e milhões de registros.

Recursos do HBase

  • O HBase fornece escalabilidade tanto linear quanto modular.
  • APIs em JAVA podem ser usadas para acesso do cliente.
  • O HBase fornece um shell para a execução de consultas.

5. tratador

O Apache Zookeeper é um serviço de manutenção de configuração centralizada, mantém um registro de informações, nome e também fornece sincronização distribuída e serviços de grupo. O Zookeeper é um repositório centralizado que é utilizado por aplicativos distribuídos para colocar e obter dados dele. Também ajuda no gerenciamento de nós, ou seja, para ingressar ou deixar um nó no cluster. Ele fornece um registro de dados altamente confiável quando poucos dos nós estão inativos.

Recursos do Zookeeper

  • O desempenho pode ser aumentado distribuindo as tarefas que são alcançadas adicionando mais máquinas.
  • Esconde a complexidade da distribuição e se retrata como uma única máquina.
  • A falha de alguns sistemas não afeta o sistema inteiro, mas a desvantagem é que isso pode levar à perda parcial de dados.
  • Ele fornece Atomicidade, ou seja, a transação é bem-sucedida ou falhou, mas não está em um estado imperfeito.

6. Flume

O Apache Flume é uma ferramenta que fornece ingestão de dados, que pode coletar, agregar e transportar uma quantidade enorme de dados de diferentes fontes para um HDFS, HBase etc. O Flume é muito confiável e pode ser configurado. Ele foi projetado para ingerir dados de streaming do servidor da Web ou dados de eventos no HDFS, por exemplo, pode ingerir dados do twitter no HDFS. O Flume pode armazenar dados em qualquer um dos armazenamentos de dados centralizados, como HBase / HDFS. Se houver uma situação em que a produção de dados esteja em uma taxa mais alta em comparação com a velocidade dos dados, pode ser gravada, o flume atua como um mediador e garante que os dados fluam constantemente.

Recursos do Flume

  • Ele pode ingerir dados de servidores da Web juntamente com os dados do evento, como dados das mídias sociais.
  • As transações de fluxo são baseadas em canais, ou seja, duas mensagens são mantidas, uma é para envio e outra para recebimento.
  • A escala horizontal é possível em uma calha.
  • É altamente tolerante a falhas, pois o roteamento contextual está presente em uma calha.

Conclusão - Hadoop Tools

Aqui neste artigo, aprendemos sobre algumas das ferramentas do Hadoop e como elas são úteis no mundo dos dados. Vimos o Hive and Pig, que é usado para consultar e analisar dados, o sqoop para mover dados e o flume para inserir dados de streaming no HDFS.

Artigos recomendados

Este foi um guia para o Hadoop Tools. Aqui discutimos diferentes ferramentas do Hadoop com seus recursos. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Alternativas do Hadoop
  2. Banco de Dados Hadoop
  3. Funções de seqüência de caracteres SQL
  4. O que é Big Data

Categoria: