Instale o Hadoop - Como instalar o Hadoop com a configuração passo a passo

Visão geral do Install Hadoop

O artigo a seguir, Instalar o Hadoop, fornece uma descrição dos principais módulos-chave da estrutura do Hadoop e a instalação passo a passo do Hadoop. O Apache Hadoop é uma coleção de software que permite o processamento de grandes conjuntos de dados e armazenamento distribuído em um cluster de diferentes tipos de sistema de computador. Atualmente, o Hadoop continua sendo a plataforma de análise mais usada para big data ("Sanchita Lobo, autor do Analytics Training Blog", nd).

Estrutura do Hadoop

A estrutura do Apache Hadoop consiste nos seguintes módulos principais.

Apache Hadoop Common.
Sistema de arquivos distribuídos (Apache Hadoop) (HDFS).
Apache Hadoop MapReduce
Apache Hadoop YARN (outro gerente de recursos).

Apache Hadoop Common

O módulo Apache Hadoop Common consiste em bibliotecas compartilhadas consumidas em todos os outros módulos, incluindo gerenciamento de chaves, pacotes de E / S genéricos, bibliotecas para coleta de métricas e utilitários para registro, segurança e streaming.

HDFS

O HDFS é baseado no sistema de arquivos do Google e está estruturado para rodar em hardware de baixo custo. O HDFS é tolerante a falhas e foi projetado para aplicativos com grandes conjuntos de dados.

MapReduce

O MapReduce é um modelo de programação paralela inerente ao processamento de dados e o Hadoop pode executar programas MapReduce escritos em várias linguagens, como Java. O MapReduce funciona dividindo o processamento na fase do mapa e reduz a fase.

Apache Hadoop YARN

O Apache Hadoop YARN é um componente principal e é uma tecnologia de gerenciamento de recursos e agendamento de tarefas na estrutura de processamento distribuído do Hadoop.

Neste artigo, discutiremos a instalação e configuração do Hadoop 2.7.4 em um cluster de nó único e testaremos a configuração executando o programa MapReduce chamado wordcount para contar o número de palavras no arquivo. Examinaremos mais alguns comandos importantes do Sistema de arquivos Hadoop.

Etapas para instalar o Hadoop

A seguir, é apresentado um resumo das tarefas envolvidas na configuração do Apache Hadoop.

Tarefa 1: A primeira tarefa na instalação do Hadoop incluiu a configuração de um modelo de máquina virtual que foi configurado com o Cent OS7. Pacotes como Java SDK 1.8 e Runtime Systems necessários para executar o Hadoop foram baixados e a variável de ambiente Java para Hadoop foi configurada editando bash_rc.

Tarefa 2: O pacote Hadoop Release 2.7.4 foi baixado do site apache e extraído na pasta opt. Que foi renomeado como Hadoop para facilitar o acesso.

Tarefa 3: Depois que os pacotes do Hadoop foram extraídos, a próxima etapa incluiu a configuração da variável de ambiente para o usuário do Hadoop e a configuração dos arquivos XML do nó do Hadoop. Nesta etapa, o NameNode foi configurado no core-site.xml e o DataNode foi configurado no hdfs-site.xml. O gerenciador de recursos e o nó foram configurados no yarn-site.xml.

Tarefa 4: O firewall foi desativado para iniciar o YARN e o DFS. O comando JPS foi usado para verificar se daemons relevantes estão sendo executados em segundo plano. O número da porta para acessar o Hadoop foi configurado para http: // localhost: 50070 /

Tarefa 5: As próximas etapas foram usadas para verificar e testar o Hadoop. Para isso, criamos um arquivo de teste temporário no diretório de entrada do programa WordCount. O programa de redução de mapa Hadoop-MapReduce-examples2.7.4.jar foi usado para contar o número de palavras no arquivo. Os resultados foram avaliados no host local e os logs do aplicativo enviado foram analisados. Todos os aplicativos MapReduce enviados podem ser visualizados na interface online, o número da porta padrão sendo 8088.

Tarefa 6: Na tarefa final, apresentaremos alguns comandos básicos do Hadoop File System e verificaremos seus usos. Veremos como um diretório pode ser criado dentro do sistema de arquivos Hadoop, para listar o conteúdo de um diretório, seu tamanho em bytes. Veremos ainda como excluir um diretório e arquivo específicos.

Resultados na instalação do Hadoop

A seguir, são mostrados os resultados de cada uma das tarefas acima:

Resultado da Tarefa 1

Uma nova máquina virtual com uma imagem cenOS7 foi configurada para executar o Apache Hadoop. A Figura 1 mostra como a imagem do CenOS 7 foi configurada na máquina virtual. A Figura 1.2 mostra a configuração da variável de ambiente JAVA em .bash_rc.

Figura 1: Configuração da máquina virtual

Figura 1.2: Configuração da variável de ambiente Java

Resultado da Tarefa 2

A Figura 2 mostra a tarefa executada para extrair o pacote Hadoop 2.7.4 para a pasta opt.

Figura 2: Extração do pacote Hadoop 2.7.4

Resultado da Tarefa 3

A Figura 3 mostra a configuração da variável de ambiente para o usuário do Hadoop. As Figuras 3.1 a 3.4 mostram a configuração dos arquivos XML necessários para a configuração do Hadoop.

Figura 3: Configurando a variável de ambiente para o usuário Hadoop

Figura 3.1: Configuração do core-site.xml

Figura 3.2: Configuração do hdfs-site.xml

Figura 3.3: Configuração do arquivo mapred-site.xml

Figura 3.4: Configuração do arquivo yarn-site.xml

Resultado da Tarefa 4

A Figura 4 mostra o uso do comando jps para verificar se os daemons relevantes estão em execução em segundo plano e a figura a seguir mostra a Interface do usuário on-line do Hadoop.

Figura 4: comando jps para verificar daemons em execução.

Figura 4.1: Acessando a interface online do Hadoop na porta http://hadoop1.example.com:50070/

Resultado da Tarefa 5

A Figura 5 mostra o resultado para o programa MapReduce chamado wordcount, que conta o número de palavras no arquivo. As próximas figuras exibem a interface do usuário on-line do gerenciador de recursos YARN para a tarefa enviada.

Figura 5: Resultados do programa MapReduce

Figura 5.1: Aplicativo enviado para redução de mapa.

Figura 5.2: Logs para o aplicativo MapReduce enviado.

Resultado da Tarefa 6

A Figura 6 mostra como criar um diretório no sistema de arquivos Hadoop e executar uma listagem do diretório hdfs.

Figura 6: Criando um diretório no sistema de arquivos Hadoop

A Figura 6.1 mostra como colocar um arquivo no sistema de arquivos distribuídos Hadoop e a figura 6.2 mostra o arquivo criado no diretório dirB.

Figura 6.1: Criando um arquivo no HDFS.

Figura 6.2: Novo arquivo criado.

As próximas figuras mostram como listar o conteúdo de diretórios específicos:

Figura 6.3: Conteúdo do dirA

Figura 6.4: Conteúdo do dirB

A próxima figura mostra como o tamanho do arquivo e do diretório pode ser exibido:

Figura 6.5: Exibir um tamanho de arquivo e diretório.

A exclusão de um diretório ou arquivo pode ser facilmente realizada pelo comando -rm.

Figura 6.6: Para excluir um arquivo.

Conclusão

O Big Data desempenhou um papel muito importante na formação do mercado mundial de hoje. A estrutura do Hadoop facilita a vida do analista de dados enquanto trabalha em grandes conjuntos de dados. A configuração do Apache Hadoop era bastante simples e a interface do usuário on-line fornecia ao usuário várias opções para ajustar e gerenciar o aplicativo. O Hadoop tem sido usado massivamente em organizações para armazenamento de dados, análise de aprendizado de máquina e backup de dados. O gerenciamento de uma grande quantidade de dados tem sido bastante útil devido ao ambiente distribuído do Hadoop e ao MapReduce. O desenvolvimento do Hadoop foi incrível quando comparado aos bancos de dados relacionais, pois eles não têm opções de ajuste e desempenho. O Apache Hadoop é uma solução amigável e de baixo custo para gerenciar e armazenar big data com eficiência. O HDFS também ajuda bastante no armazenamento de dados.

Artigos recomendados

Este é um guia para instalar o Hadoop. Aqui discutimos a introdução ao Instal Hadoop, instalação passo a passo do Hadoop, juntamente com os resultados da instalação do Hadoop. Você também pode consultar nossos outros artigos sugeridos para saber mais -

Introdução ao Hadoop Streaming
O que é o Hadoop Cluster e como funciona?
Ecossistema Apache Hadoop e seus componentes
Quais são as alternativas do Hadoop?

Instale o Hadoop - Como instalar o Hadoop com a configuração passo a passo

Índice:

Visão geral do Install Hadoop

Estrutura do Hadoop

Apache Hadoop Common

HDFS

MapReduce

Apache Hadoop YARN

Etapas para instalar o Hadoop

Resultados na instalação do Hadoop

Resultado da Tarefa 1

Resultado da Tarefa 2

Resultado da Tarefa 3

Resultado da Tarefa 4

Resultado da Tarefa 5

Resultado da Tarefa 6

Conclusão

Artigos recomendados

Raiz quadrada em JavaScript - Exemplos para encontrar raiz quadrada em JavaScript

Teste de estabilidade - Técnicas e ferramentas - Vantagens e desvantagens

Exemplos de partes interessadas - Os 8 principais exemplos de stakeholders da vida real

Raiz quadrada no Excel (fórmula, exemplos) - Usos da Função Raiz Quadrada

Perguntas da entrevista do SSRS atualizadas para 2018 - você deve saber

Conversão Excel para CSV - Como converter um arquivo Excel para CSV com exemplos?

Converter números em texto no Excel - Principais métodos que você deve conhecer

Gráficos de controle no Excel - Como criar gráficos de controle no Excel?

Teclas de atalho do CorelDRAW - Lista completa de teclas de atalho para o CorelDRAW

As 10 principais perguntas e respostas da entrevista sobre PHP (Update for 2019)

Guia de ferramentas de design da Web de maneira passo a passo

As 10 principais perguntas da entrevista para desenvolvimento da Web (Atualizado para 2018)

Impressionante para criar aplicativos de desenvolvimento Web na programação Go

Qual é o melhor Web Developer vs Web Tester?

WebGL vs OpenGL - Conheça as 6 diferenças mais úteis