O que é o MapReduce no Hadoop? - Como funciona Competências e crescimento na carreira

Índice:

Anonim

O que é o MapReduce no Hadoop

O MapReduce é uma estrutura do Hadoop que é usada para processar grandes quantidades de dados paralelos em grandes grupos de hardware comum de maneira confiável. O Hadoop é um projeto de código aberto fornecido pela fundação de software Apache. O Hadoop costumava executar análises de maneira rápida e confiável para dados estruturados e não estruturados. O Hadoop pode manipular conjuntos de dados muito grandes e que podem ser dados estruturados e não estruturados, o que é realmente associado ao big data. Estrutura do Hadoop que permite que um aplicativo armazene os dados em um formulário distribuído e processe grandes conjuntos de dados em clusters de computadores usando um modelo de programação simples, que é o Map Reduce. Por outras palavras, podemos chamar Map Reduce como um modelo de programação usado para processamento enorme quantidade de dados distribuídos pelo número de clusters. O Hadoop pode escalar de servidores únicos para milhares de nós ou máquinas de computação que cada um usa para computação e armazenamento.

O projeto Apache Hadoop contém vários subprojetos como:

  • Hadoop Common: o Hadoop Common possui utilitários que suportam os outros subprojetos do Hadoop.
  • Sistema de arquivos distribuídos do Hadoop (HDFS): O Sistema de arquivos distribuídos do Hadoop fornece para acessar o arquivo distribuído aos dados do aplicativo.
  • Hadoop MapReduce: O Hadoop MapReduce é uma estrutura de software para o processamento de grandes conjuntos de dados distribuídos em clusters de computação.
  • Hadoop YARN: O Hadoop YARN é uma estrutura para gerenciamento de recursos e agendamento de tarefas.

Como o MapReduce no Hadoop facilita o trabalho?

O MapReduce facilita o dimensionamento do processamento de dados em centenas ou milhares de máquinas de cluster. O modelo MapReduce realmente funciona em duas etapas chamadas mapear e reduzir e o processamento chamado como mapeador e redutor, respectivamente. Depois que escrevemos o MapReduce para um aplicativo, o aplicativo em escala para executar sobre múltiplos ou mesmo vários milhares de clusters é apenas uma alteração na configuração. Esse recurso do modelo MapReduce atraiu muitos programadores para usá-lo.

Como o MapReduce no Hadoop funciona?

O programa MapReduce é executado principalmente em quatro etapas:

  1. Divisões de entrada
  2. Mapa
  3. Aleatório
  4. Reduzir

Agora vamos ver cada passo como eles funcionam.

1. Mapa passo-

Esta etapa é a combinação da etapa de divisão de entrada e da etapa Mapa. Na etapa Mapa, o arquivo de origem é passado como linha por linha. Antes da entrada passar para o trabalho da função Mapa, a entrada é dividida no pequeno tamanho fixo chamado Divisões de Entrada. A divisão de entrada é uma parte da entrada que pode ser consumida por um único mapa. Na etapa Mapa, cada dado dividido é passado para a função de mapeador e, em seguida, a função de mapeador processa os dados e, em seguida, gera os valores. Geralmente, os dados de entrada da tarefa do mapa ou do mapeador estão na forma de um arquivo ou diretório que é armazenado no sistema de arquivos Hadoop (HDFS).

2. Reduza as etapas

Esta etapa é a combinação da etapa Shuffle e Reduce. A função de redução ou o trabalho do Redutor obtém os dados resultantes da função de mapa. Após o processamento, reduzindo a função, produz um novo conjunto de resultados que é armazenado novamente no HDFS.

Em uma estrutura do Hadoop, não é certo que cada cluster execute qual tarefa Map ou Reduce ou Map e Reduce. Portanto, a solicitação das tarefas Mapear e Reduzir deve ser enviada aos servidores apropriados no cluster. A própria estrutura do Hadoop gerencia todas as tarefas de emissão, verificação da conclusão do trabalho, busca de dados do HDFS, cópia de dados no cluster dos nós e assim por diante. No Hadoop, a computação ocorre principalmente nos nós, juntamente com os dados nos próprios nós, o que reduz o tráfego da rede.

Portanto, a estrutura MapReduce é muito útil na estrutura Hadoop.

Vantagens do MapReduce

  1. Escalabilidade - O MapReduce torna o Hadoop altamente escalável porque possibilita armazenar grandes conjuntos de dados em forma de distribuição em vários servidores. Como é distribuído por vários, pode operar em paralelo.
  2. Solução econômica - O MapReduce fornece uma solução econômica para empresas que precisam armazenar os dados crescentes e processá-los de uma maneira econômica, que é a necessidade comercial de hoje.
  3. Flexibilidade - O MapReduce torna o Hadoop muito flexível para diferentes fontes de dados e até para diferentes tipos de dados, como dados estruturados ou não estruturados. Portanto, torna-se muito flexível acessar dados estruturados ou não estruturados e processá-los.
  4. Rápido - Como os dados de armazenamento do Hadoop no sistema de arquivos distribuídos, pelo qual o armazenamento dos dados no disco local de um cluster e nos programas MapReduce também geralmente está localizado nos mesmos servidores, o que permite um processamento mais rápido dos dados, sem a necessidade de acessar os dados de outros servidores.
  5. Processamento paralelo - Como os dados de armazenamento do Hadoop no sistema de arquivos distribuídos e o funcionamento do programa MapReduce são de tal ordem que ele divide e reduz o mapa de tarefas e que pode ser executado em paralelo. E, novamente, devido à execução paralela, reduz todo o tempo de execução.

Habilidades

As habilidades necessárias para o MapReduce no Hadoop são ter bom conhecimento de programação de Java (obrigatório), sistema operacional Linux e conhecimento de consultas SQL.

O escopo do MapReduce no Hadoop

O MapReduce no Hadoop é um campo de crescimento rápido, pois o campo de big data está crescendo; portanto, o escopo do MapReduce no Hadoop é muito promissor no futuro, pois a quantidade de dados estruturados e não estruturados aumenta exponencialmente dia a dia. As plataformas de mídia social estão gerando muitos dados não estruturados que podem ser extraídos para obter informações reais sobre diferentes domínios.

Conclusão

  • O MapReduce é uma estrutura do Hadoop que é usada para processar grandes quantidades de dados paralelos em grandes grupos de hardware comum de maneira confiável.
  • O projeto Apache Hadoop contém vários subprojetos como Hadoop Common, HDFS (Hadoop Distributed File System), Hadoop MapReduce e Hadoop YARN.
  • Na etapa do mapa, cada dado dividido é passado para a função de mapeador e, em seguida, a função de mapeador processa os dados e, em seguida, gera os valores.
  • A função de redução ou o trabalho do Redutor obtém os dados resultantes da função de mapa.
  • As vantagens do MapReduce são listadas como escalabilidade, solução econômica, flexibilidade, processamento rápido e paralelo.

Artigos recomendados

Este foi um guia para o que é o MapReduce no Hadoop. Aqui discutimos os componentes, trabalho, habilidades, crescimento na carreira e vantagens do MapReduce no Hadoop. Você também pode consultar nossos outros artigos sugeridos para saber mais

  1. O que é um algoritmo?
  2. Diferenças entre o Hadoop e o MapReduce
  3. O que é o Azure?
  4. O que é a tecnologia de Big Data?
  5. Como o MapReduce funciona