Instale o Spark - Guia Completo Sobre Instalação Do Spark

Como instalar o Spark?

O Spark é uma estrutura de código aberto para executar aplicativos de análise. É um mecanismo de processamento de dados hospedado na Apache Software Foundation, independente do fornecedor, para trabalhar em grandes conjuntos de dados ou big data. É um sistema de computação de cluster de uso geral que fornece APIs de alto nível em Scala, Python, Java e R. Foi desenvolvido para superar as limitações do paradigma MapReduce do Hadoop. Os cientistas de dados acreditam que o Spark executa 100 vezes mais rápido que o MapReduce, pois pode armazenar dados em cache na memória, enquanto o MapReduce trabalha mais lendo e gravando em discos. Ele executa o processamento na memória, o que o torna mais poderoso e rápido.

O Spark não possui seu próprio sistema de arquivos. Ele processa dados de diversas fontes de dados, como o Hadoop Distributed File System (HDFS), sistema S3 da Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Ele pode ser executado no Hadoop YARN (Yet Another Resource Negotiator), no Mesos, no EC2, no Kubernetes ou usando o modo de cluster autônomo. Ele usa RDDs (conjunto de dados distribuído resiliente) para delegar cargas de trabalho em nós individuais que suportam aplicativos iterativos. Devido ao RDD, a programação é fácil em comparação com o Hadoop.

O Spark consiste em vários componentes chamados de Componentes do ecossistema Spark.

Spark Core: É a base do aplicativo Spark da qual outros componentes são diretamente dependentes. Ele fornece uma plataforma para uma ampla variedade de aplicativos, como agendamento, envio de tarefas distribuídas, processamento de memória e referência de dados.
Spark Streaming: é o componente que funciona nos dados de transmissão ao vivo para fornecer análises em tempo real. Os dados ativos são ingeridos em unidades discretas chamadas lotes que são executadas no Spark Core.
Spark SQL: é o componente que funciona sobre o núcleo do Spark para executar consultas SQL em dados estruturados ou semiestruturados. Data Frame é a maneira de interagir com o Spark SQL.
GraphX: é o mecanismo ou a estrutura de computação gráfica que permite processar dados gráficos. Ele fornece vários algoritmos gráficos para serem executados no Spark.
MLlib: contém algoritmos de aprendizado de máquina que fornecem estrutura de aprendizado de máquina em um ambiente distribuído baseado em memória. Ele executa algoritmos iterativos eficientemente devido à capacidade de processamento de dados na memória.
SparkR: O Spark fornece um pacote R para executar ou analisar conjuntos de dados usando o shell R.

Existem três maneiras de instalar ou implantar o spark nos seus sistemas:

Modo autônomo no Apache Spark
Hadoop YARN / Mesos
SIMR (Spark no MapReduce)

Vamos ver a implantação no modo autônomo.

Modo de implantação independente do Spark:

Etapa 1: atualizar o índice do pacote

Isso é necessário para atualizar todos os pacotes presentes em sua máquina.

Use o comando : $ sudo apt-get update

Etapa 2: Instalar o Java Development Kit (JDK)

Isso instalará o JDK em sua máquina e ajudará você a executar aplicativos Java.

Etapa 3: verifique se o Java foi instalado corretamente

Java é um pré-requisito para usar ou executar aplicativos Apache Spark.

Use o comando : $ java –version

Esta captura de tela mostra a versão java e garante a presença de java na máquina.

Etapa 4: Instale o Scala na sua máquina

Como o Spark está escrito em scala, a balança deve ser instalada para executar a faísca em sua máquina.

Use o comando: $ sudo apt-get install scala

Etapa 5: verificar se o Scala está instalado corretamente

Isso garantirá a instalação bem-sucedida da balança no seu sistema.

Use o comando : $ scala –version

Etapa 6: Faça o download do Apache Spark

Baixe o Apache Spark de acordo com a sua versão do Hadoop em https://spark.apache.org/downloads.html

Quando você acessar o link acima, uma janela aparecerá.

Etapa 7: selecione a versão apropriada de acordo com a sua versão do Hadoop e clique no link marcado.

Outra janela apareceria.

Etapa 8: clique no link marcado e o Apache spark será baixado no seu sistema.

Verifique se o arquivo .tar.gz está disponível na pasta de downloads.

Etapa 9: Instale o Apache Spark

Para instalação do Spark, o arquivo tar deve ser extraído.

Use o comando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Você deve alterar a versão mencionada no comando de acordo com a versão baixada. Neste, baixamos a versão do spark-2.4.0-bin-hadoop2.7.

Etapa 10: Configurar variável de ambiente para o Apache Spark

Use o comando: $ source ~ / .bashrc

Adicionar linha : export PATH = $ PATH: / usr / local / spark / bin

Etapa 11: verificar a instalação do Apache Spark

Use o comando : $ spark-shell

Se a instalação foi bem-sucedida, a seguinte saída será produzida.

Isso significa a instalação bem-sucedida do Apache Spark em sua máquina e o Apache Spark será iniciado no Scala.

Implantação do Spark no Hadoop YARN:

Existem dois modos para implantar o Apache Spark no Hadoop YARN.

Modo de cluster: nesse modo, o YARN no cluster gerencia o driver Spark que é executado dentro de um processo mestre do aplicativo. Depois de iniciar o aplicativo, o cliente pode ir.
Modo cliente: nesse modo, os recursos são solicitados ao YARN pelo mestre do aplicativo e o driver Spark é executado no processo do cliente.

Para implantar um aplicativo Spark no modo de cluster, use o comando:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

O comando acima iniciará um programa cliente YARN que iniciará o Application Master padrão.

Para implantar um aplicativo Spark no modo cliente, use o comando:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Você pode executar o spark shell no modo cliente usando o comando:

$ spark-shell –master yarn –deploy-mode client

Dicas e truques para usar a instalação do spark:

Certifique-se de que o Java esteja instalado em sua máquina antes de instalar o spark.
Se você usar o idioma scala, verifique se a balança já está instalada antes de usar o Apache Spark.
Você também pode usar o Python em vez do Scala para programar no Spark, mas ele também deve ser pré-instalado como o Scala.
Você também pode executar o Apache Spark no Windows, mas é recomendável criar uma máquina virtual e instalar o Ubuntu usando o Oracle Virtual Box ou VMWare Player .
O Spark pode ser executado sem o Hadoop (modo Independente), mas se uma configuração de vários nós for necessária, serão necessários gerenciadores de recursos como YARN ou Mesos.
Enquanto estiver usando o YARN, não é necessário instalar o Spark nos três nós. Você precisa instalar o Apache Spark apenas em um nó.
Ao usar o YARN, se você estiver na mesma rede local que o cluster, poderá usar o modo cliente, enquanto que, se estiver longe, poderá usar o modo cluster.

Artigos recomendados - Spark Install

Este foi um guia sobre como instalar o Spark. Aqui, vimos como implantar o Apache Spark no modo Independente e no YARN do gerenciador de recursos, além de algumas dicas e truques também para uma instalação suave do Spark. Você também pode consultar o seguinte artigo para saber mais -

Como usar os comandos do Spark
Uma carreira no Spark - você deve tentar
Diferenças de Splunk vs Spark
Perguntas e respostas da entrevista do Spark
Vantagens do Spark Streaming
Tipos de junções no Spark SQL (exemplos)

Instale o Spark - Guia Completo Sobre Instalação Do Spark

Índice:

Como instalar o Spark?

O Spark consiste em vários componentes chamados de Componentes do ecossistema Spark.

Existem três maneiras de instalar ou implantar o spark nos seus sistemas:

Modo de implantação independente do Spark:

Etapa 1: atualizar o índice do pacote

Etapa 2: Instalar o Java Development Kit (JDK)

Etapa 3: verifique se o Java foi instalado corretamente

Etapa 4: Instale o Scala na sua máquina

Etapa 5: verificar se o Scala está instalado corretamente

Etapa 6: Faça o download do Apache Spark

Etapa 7: selecione a versão apropriada de acordo com a sua versão do Hadoop e clique no link marcado.

Etapa 8: clique no link marcado e o Apache spark será baixado no seu sistema.

Etapa 9: Instale o Apache Spark

Etapa 10: Configurar variável de ambiente para o Apache Spark

Etapa 11: verificar a instalação do Apache Spark

Implantação do Spark no Hadoop YARN:

Dicas e truques para usar a instalação do spark:

Artigos recomendados - Spark Install

6 Linguagem corporal para desenvolver as melhores habilidades profissionais da vida - eduCBA

10 melhores maneiras de investir em seu plano de desenvolvimento profissional - Objetivos - Programa - Importância

Fórmula do Índice de Rentabilidade - Calculadora (modelo do Excel)

Fórmula de margem de lucro - Calculadora (exemplos com modelo do Excel)

Programa para Mesclar Classificar em Java - Vários formulários no Merge Sort in Java

Instale o Debian - Dois Métodos Diferentes para Instalar o Sistema Debian

Instale Cassandra - Duas abordagens diferentes para instalar o Cassandra

Instale o AutoCAD - Processo passo a passo para instalar o AutoCAD no Windows

Instale a Adobe Creative Cloud - Etapas para instalar o Adobe Creative Cloud

Instale o CorelDraw - Instalação passo a passo do CorelDraw

Hadoop vs Splunk - Descubra as 7 melhores diferenças

Aprenda a 10 diferença útil entre Hadoop e Redshift

Descubra as 5 melhores diferenças entre o Hadoop e o MapReduce

Hadoop vs Teradata -11 Melhores diferenças úteis para aprender

Arquitetura do fio Hadoop - Vários componentes do fio