Introdução ao Hadoop Framework

Antes de nos aprofundarmos na estrutura técnica do Hadoop, começaremos com um exemplo simples.

Há uma fazenda que colhe tomates e os armazena em uma única área de armazenamento. Agora, com a crescente demanda de vegetais, a fazenda começou a colher batatas, cenouras - com a crescente demanda, havia uma escassez de agricultores, então eles contrataram mais agricultores. Depois de algum tempo, eles perceberam que havia uma escassez na área de armazenamento - então distribuíram os vegetais em diferentes áreas de armazenamento. Quando se trata de recuperar os dados, todos eles trabalham em paralelo com seu próprio espaço de armazenamento.

Então, como essa história está relacionada ao big data?

Anteriormente, tínhamos dados limitados, com o processador limitado e uma unidade de armazenamento. Porém, a geração de dados aumentou, levando a alto volume e variedades diferentes - estruturadas, semiestruturadas e não estruturadas. Portanto, a solução foi usar o armazenamento distribuído para cada processador, permitindo fácil acesso ao armazenamento e acesso aos dados.

Portanto, agora podemos substituir os vegetais como diferentes tipos de dados e locais de armazenamento, como os locais distribuídos para armazenar os dados e os diferentes trabalhadores sendo cada processador.

Portanto, o Big Data é o desafio e o Hadoop faz parte da solução.

HADOOP

1. Solução para BIG DATA: como ele lida com complexidades de alto volume, velocidade e variedade de dados.

2. Conjunto do projeto de código aberto.

3. Armazena um grande volume de dados de forma confiável e permite grandes cálculos distribuídos.

4. Os principais atributos do Hadoop são redundância e confiabilidade (absolutamente nenhuma perda de dados).

5. Principalmente se concentra no processamento em lote.

6. É executado em hardware comum - você não precisa comprar nenhum hardware caro especial.

Estrutura do Hadoop:

1. Utilitários comuns

2. HDFS

3. Mapa Reduzir

4. Estrutura do FIO

1. Utilitários comuns:

Também chamado de Hadoop comum. Essas são apenas as bibliotecas, arquivos, scripts e utilitários JAVA que são realmente exigidos pelos outros componentes do Hadoop para serem executados.

2. HDFS: Sistema de Arquivos Distribuídos Hadoop

Por que o Hadoop optou por incorporar um sistema de arquivos distribuídos?

Vamos entender isso com um exemplo: precisamos ler 1 TB de dados e temos uma máquina com 4 canais de E / S, cada canal com 100 MB / s, foram necessários 45 minutos para ler todos os dados. Agora, a mesma quantidade de dados é lida por 10 máquinas, cada uma com 4 canais de E / S, cada canal com 100 MB / s. Adivinha quanto tempo levou para ler os dados? 4, 3 minutos. O HDFS resolve o problema de armazenar big data. Os dois componentes principais do HDFS são NAME NODE e DATA NODE. O nó de nome é o mestre, também podemos ter um nó de nome secundário, caso o nó de nome primário pare de funcionar, o nó de nome secundário atuará como um backup. O nó de nome basicamente mantém e gerencia os nós de dados armazenando metadados. O nó de dados é o escravo, que é basicamente o hardware de commodity de baixo custo. Podemos ter vários nós de dados. O nó de dados armazena os dados reais. Esse nó de dados suporta o fator de replicação, suponha que, se um nó de dados for desativado, os dados possam ser acessados ​​pelo outro nó de dados replicado; portanto, a acessibilidade dos dados será aprimorada e a perda de dados será evitada.

3. Mapa Reduzir:

Resolve o problema de processar big data. Vamos entender o conceito de mapa reduzido resolvendo esse problema do mundo real. A empresa ABC deseja calcular suas vendas totais, em termos de cidade. Agora, aqui o conceito de tabela de hash não funcionará porque os dados estão em terabytes, portanto, usaremos o conceito Map-Reduce.

Existem duas fases: a) MAP. b) REDUZIR

a) Mapa : Primeiro, dividiremos os dados em blocos menores chamados mapeadores, com base no par de chave / valor. Portanto, aqui a chave será o nome da cidade e o valor será o total de vendas. Cada mapeador obterá os dados de cada mês, indicando o nome da cidade e as vendas correspondentes.

b) Reduzir: Ele obterá essas pilhas de dados e cada redutor será responsável pelas cidades Norte / Oeste / Leste / Sul. Portanto, o trabalho do redutor estará coletando esses pequenos pedaços e convertendo-os em quantidades maiores (somando-os) para uma cidade específica.

4.YARN Framework: Mais um negociador de recursos.

A versão inicial do Hadoop tinha apenas dois componentes: Map Reduce e HDFS. Mais tarde, percebeu-se que o Map Reduce não conseguia resolver muitos problemas de big data. A idéia era retirar as responsabilidades de gerenciamento de recursos e agendamento de tarefas do antigo mecanismo de redução de mapas e entregá-las a um novo componente. Então foi assim que o YARN entrou em cena. É a camada intermediária entre o HDFS e o Map Reduce que é responsável pelo gerenciamento dos recursos do cluster.

Ele tem duas funções principais a serem desempenhadas: a) Agendamento de tarefas. b) Gerenciamento de recursos

a) Agendamento de trabalhos: quando uma grande quantidade de dados está sendo fornecida para processamento, eles precisam ser distribuídos e divididos em diferentes tarefas / trabalhos. Agora, o JS decide qual trabalho precisa receber a prioridade máxima, o intervalo de tempo entre dois trabalhos, a dependência entre os trabalhos, verifica se não há sobreposição entre os trabalhos em execução.

b) Gerenciamento de recursos: para processar os dados e armazenar os dados, precisamos de recursos, certo? Portanto, o gerenciador de recursos fornece, gerencia e mantém os recursos para armazenar e processar os dados.
Portanto, agora estamos claros sobre o conceito do Hadoop e como ele resolve os desafios criados pelos BIG DATA !!!

Artigos recomendados

Este foi um guia para o Hadoop Framework. Aqui também discutimos as 4 principais estruturas do Hadoop. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Banco de Dados Hadoop
  2. Ecossistema Hadoop
  3. Usos do Hadoop
  4. Trabalhos de administrador do Hadoop
  5. Administrador do Hadoop | Habilidades e Carreira

Categoria: