MapReduce vs Apache Spark - 20 comparações úteis para aprender

Diferenças entre o MapReduce e o Apache Spark

O Apache Hadoop é uma estrutura de software de código aberto projetada para aumentar de servidores únicos a milhares de máquinas e executar aplicativos em clusters de hardware comum. A estrutura do Apache Hadoop é dividida em duas camadas.

Sistema de arquivos distribuídos do Hadoop (HDFS)
Camada de processamento (MapReduce)

Camada de armazenamento do Hadoop, ou seja, o HDFS é responsável pelo armazenamento de dados, enquanto o MapReduce é responsável pelo processamento de dados no Hadoop Cluster. O MapReduce é esse paradigma de programação que permite escalabilidade massiva em centenas ou milhares de servidores em um cluster Hadoop. O MapReduce é uma técnica de processamento e um modelo de programa para computação distribuída com base na linguagem de programação Java. O MapReduce é uma estrutura poderosa para o processamento de conjuntos grandes e distribuídos de dados estruturados ou não estruturados em um cluster Hadoop armazenado no HDFS (Hadoop Distributed File System). Os poderosos recursos do MapReduce são sua escalabilidade.

O Apache Spark é uma estrutura de tecnologia de computação extremamente rápida e de cluster, projetada para computação rápida em processamento de dados em larga escala. O Apache Spark é um mecanismo de processamento distribuído, mas não vem com o gerenciador de recursos de cluster embutido e o sistema de armazenamento distribuído. Você precisa conectar um gerenciador de cluster e um sistema de armazenamento de sua escolha. O Apache Spark consiste em um núcleo do Spark e um conjunto de bibliotecas semelhantes às disponíveis para o Hadoop. O núcleo é o mecanismo de execução distribuído e um conjunto de idiomas. O Apache Spark suporta linguagens como Java, Scala, Python e R para desenvolvimento de aplicativos distribuídos. Bibliotecas adicionais são construídas sobre o núcleo do Spark para permitir cargas de trabalho que usam streaming, SQL, gráfico e aprendizado de máquina. O Apache Spark é um mecanismo de processamento de dados para modos de lote e streaming com consultas SQL, processamento de gráfico e aprendizado de máquina. O Apache Spark pode ser executado de forma independente e também no Hadoop YARN Cluster Manager e, portanto, pode ler os dados existentes do Hadoop.

Você pode escolher o Apache YARN ou o Mesos para o gerenciador de cluster do Apache Spark.
Você pode escolher o Hadoop Distributed File System (HDFS), armazenamento em nuvem do Google, Amazon S3, Microsoft Azure para gerenciador de recursos do Apache Spark.

Comparação cara a cara entre MapReduce x Apache Spark (Infográficos)

Abaixo está a comparação dos 20 principais entre o MapReduce e o Apache Spark

Diferença de chave entre MapReduce e Apache Spark

O MapReduce é estritamente baseado em disco, enquanto o Apache Spark usa memória e pode usar um disco para processamento.
O MapReduce e o Apache Spark têm compatibilidade semelhante em termos de tipos de dados e fontes de dados.
A principal diferença entre o MapReduce e o Spark é que o MapReduce usa armazenamento persistente e o Spark usa conjuntos de dados distribuídos resilientes.
O Hadoop MapReduce destina-se a dados que não cabem na memória, enquanto o Apache Spark tem um desempenho melhor para os dados que cabem na memória, principalmente em clusters dedicados.
O Hadoop MapReduce pode ser uma opção econômica devido ao Hadoop como serviço e o Apache Spark é mais econômico devido à memória de alta disponibilidade
O Apache Spark e o Hadoop MapReduce são tolerantes a falhas, mas comparativamente o Hadoop MapReduce é mais tolerante a falhas que o Spark.
O Hadoop MapReduce requer habilidades básicas de programação java, enquanto a programação no Apache Spark é mais fácil, pois possui um modo interativo.
O Spark é capaz de executar tarefas de processamento em lote entre 10 e 100 vezes mais rápido que o MapReduce. Embora as duas ferramentas sejam usadas para processar Big Data.

Quando usar o MapReduce:

Processamento linear de grandes conjuntos de dados
Nenhuma solução intermediária é necessária

Quando usar o Apache Spark:

Processamento de dados rápido e interativo
Juntando conjuntos de dados
Processamento de gráficos
Trabalhos iterativos
Processamento em tempo real
Machine Learning

Tabela de comparação do MapReduce vs Apache Spark

	MapReduce	Apache Spark
Processamento de dados	Somente para processamento em lote	Processamento em lote, bem como processamento de dados em tempo real
Velocidade de processamento	Mais lento que o Apache Spark, porque se a latência do disco de E / S	100x mais rápido na memória e 10x mais rápido enquanto roda no disco
Categoria	Mecanismo de processamento de dados	Mecanismo de análise de dados
Custos	Menos caro comparando o Apache Spark	Mais caro por causa de uma grande quantidade de RAM
Escalabilidade	Ambos são escalonáveis limitados a 1000 nós no cluster único	Ambos são escalonáveis limitados a 1000 nós no cluster único
Machine Learning	O MapReduce é mais compatível com o Apache Mahout enquanto se integra ao Machine Learning	O Apache Spark possui APIs embutidas para Machine Learning
Compatibilidade	Principalmente compatível com todas as fontes de dados e formatos de arquivo	O Apache Spark pode integrar-se a todas as fontes de dados e formatos de arquivo suportados pelo cluster Hadoop
Segurança	A estrutura MapReduce é mais segura em comparação com o Apache Spark	O recurso de segurança no Apache Spark está mais evoluindo e amadurecendo
Agendador	Dependente do agendador externo	O Apache Spark possui agendador próprio
Tolerância ao erro	Usa replicação para tolerância a falhas	O Apache Spark usa RDD e outros modelos de armazenamento de dados para tolerância a falhas
Fácil de usar	O MapReduce é um pouco complexo comparando o Apache Spark por causa das APIs JAVA	O Apache Spark é mais fácil de usar devido às APIs ricas
Eliminação duplicada	O MapReduce não suporta esses recursos	O Apache Spark processa todos os registros exatamente uma vez, portanto, elimina a duplicação.
Suporte de linguas	A linguagem principal é Java, mas linguagens como C, C ++, Ruby, Python, Perl e Groovy também suportam	O Apache Spark suporta Java, Scala, Python e R
Latência	Latência muito alta	Comparação muito mais rápida do MapReduce Framework
Complexidade	Difícil de escrever e depurar códigos	Fácil de escrever e depurar
Comunidade Apache	Open Source Framework para processamento de dados	Open Source Framework para processar dados a uma velocidade mais alta
Codificação	Mais linhas de código	Linhas menores de código
Modo Interativo	Não interativo	Interativo
A infraestrutura	Hardware de commodities	Hardware de nível médio a alto
SQL	Suporte através do Hive Query Language	Suporte através do Spark SQL

Conclusão - MapReduce vs Apache Spark

O MapReduce e o Apache Spark são a ferramenta mais importante para o processamento de Big Data. A principal vantagem do MapReduce é que é fácil dimensionar o processamento de dados em vários nós de computação, enquanto o Apache Spark oferece computação em alta velocidade, agilidade e relativa facilidade de uso, complementos perfeitos para o MapReduce. O MapReduce e o Apache Spark têm uma relação simbiótica entre si. O Hadoop fornece recursos que o Spark não possui, como um sistema de arquivos distribuídos, e o Spark fornece processamento em memória em tempo real para os conjuntos de dados que precisam dele. O MapReduce é uma computação baseada em disco, enquanto o Apache Spark é uma computação baseada em RAM. O MapReduce e o Apache Spark juntos são uma ferramenta poderosa para o processamento de Big Data e tornam o Hadoop Cluster mais robusto.

Artigos recomendados

Este foi um guia para o MapReduce vs Apache Spark, seu significado, comparação cara a cara, diferenças principais, tabela de comparação e conclusão. Você também pode consultar os seguintes artigos para saber mais -