Como instalar o Spark?
O Spark é uma estrutura de código aberto para executar aplicativos de análise. É um mecanismo de processamento de dados hospedado na Apache Software Foundation, independente do fornecedor, para trabalhar em grandes conjuntos de dados ou big data. É um sistema de computação de cluster de uso geral que fornece APIs de alto nível em Scala, Python, Java e R. Foi desenvolvido para superar as limitações do paradigma MapReduce do Hadoop. Os cientistas de dados acreditam que o Spark executa 100 vezes mais rápido que o MapReduce, pois pode armazenar dados em cache na memória, enquanto o MapReduce trabalha mais lendo e gravando em discos. Ele executa o processamento na memória, o que o torna mais poderoso e rápido.
O Spark não possui seu próprio sistema de arquivos. Ele processa dados de diversas fontes de dados, como o Hadoop Distributed File System (HDFS), sistema S3 da Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Ele pode ser executado no Hadoop YARN (Yet Another Resource Negotiator), no Mesos, no EC2, no Kubernetes ou usando o modo de cluster autônomo. Ele usa RDDs (conjunto de dados distribuído resiliente) para delegar cargas de trabalho em nós individuais que suportam aplicativos iterativos. Devido ao RDD, a programação é fácil em comparação com o Hadoop.
O Spark consiste em vários componentes chamados de Componentes do ecossistema Spark.
- Spark Core: É a base do aplicativo Spark da qual outros componentes são diretamente dependentes. Ele fornece uma plataforma para uma ampla variedade de aplicativos, como agendamento, envio de tarefas distribuídas, processamento de memória e referência de dados.
- Spark Streaming: é o componente que funciona nos dados de transmissão ao vivo para fornecer análises em tempo real. Os dados ativos são ingeridos em unidades discretas chamadas lotes que são executadas no Spark Core.
- Spark SQL: é o componente que funciona sobre o núcleo do Spark para executar consultas SQL em dados estruturados ou semiestruturados. Data Frame é a maneira de interagir com o Spark SQL.
- GraphX: é o mecanismo ou a estrutura de computação gráfica que permite processar dados gráficos. Ele fornece vários algoritmos gráficos para serem executados no Spark.
- MLlib: contém algoritmos de aprendizado de máquina que fornecem estrutura de aprendizado de máquina em um ambiente distribuído baseado em memória. Ele executa algoritmos iterativos eficientemente devido à capacidade de processamento de dados na memória.
- SparkR: O Spark fornece um pacote R para executar ou analisar conjuntos de dados usando o shell R.
Existem três maneiras de instalar ou implantar o spark nos seus sistemas:
- Modo autônomo no Apache Spark
- Hadoop YARN / Mesos
- SIMR (Spark no MapReduce)
Vamos ver a implantação no modo autônomo.
Modo de implantação independente do Spark:
Etapa 1: atualizar o índice do pacote
Isso é necessário para atualizar todos os pacotes presentes em sua máquina.
Use o comando : $ sudo apt-get update
Etapa 2: Instalar o Java Development Kit (JDK)
Isso instalará o JDK em sua máquina e ajudará você a executar aplicativos Java.
Etapa 3: verifique se o Java foi instalado corretamente
Java é um pré-requisito para usar ou executar aplicativos Apache Spark.
Use o comando : $ java –version
Esta captura de tela mostra a versão java e garante a presença de java na máquina.
Etapa 4: Instale o Scala na sua máquina
Como o Spark está escrito em scala, a balança deve ser instalada para executar a faísca em sua máquina.
Use o comando: $ sudo apt-get install scala
Etapa 5: verificar se o Scala está instalado corretamente
Isso garantirá a instalação bem-sucedida da balança no seu sistema.
Use o comando : $ scala –version
Etapa 6: Faça o download do Apache Spark
Baixe o Apache Spark de acordo com a sua versão do Hadoop em https://spark.apache.org/downloads.html
Quando você acessar o link acima, uma janela aparecerá.
Etapa 7: selecione a versão apropriada de acordo com a sua versão do Hadoop e clique no link marcado.
Outra janela apareceria.
Etapa 8: clique no link marcado e o Apache spark será baixado no seu sistema.
Verifique se o arquivo .tar.gz está disponível na pasta de downloads.
Etapa 9: Instale o Apache Spark
Para instalação do Spark, o arquivo tar deve ser extraído.
Use o comando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Você deve alterar a versão mencionada no comando de acordo com a versão baixada. Neste, baixamos a versão do spark-2.4.0-bin-hadoop2.7.
Etapa 10: Configurar variável de ambiente para o Apache Spark
Use o comando: $ source ~ / .bashrc
Adicionar linha : export PATH = $ PATH: / usr / local / spark / bin
Etapa 11: verificar a instalação do Apache Spark
Use o comando : $ spark-shell
Se a instalação foi bem-sucedida, a seguinte saída será produzida.
Isso significa a instalação bem-sucedida do Apache Spark em sua máquina e o Apache Spark será iniciado no Scala.
Implantação do Spark no Hadoop YARN:
Existem dois modos para implantar o Apache Spark no Hadoop YARN.
- Modo de cluster: nesse modo, o YARN no cluster gerencia o driver Spark que é executado dentro de um processo mestre do aplicativo. Depois de iniciar o aplicativo, o cliente pode ir.
- Modo cliente: nesse modo, os recursos são solicitados ao YARN pelo mestre do aplicativo e o driver Spark é executado no processo do cliente.
Para implantar um aplicativo Spark no modo de cluster, use o comando:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
O comando acima iniciará um programa cliente YARN que iniciará o Application Master padrão.
Para implantar um aplicativo Spark no modo cliente, use o comando:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Você pode executar o spark shell no modo cliente usando o comando:
$ spark-shell –master yarn –deploy-mode client
Dicas e truques para usar a instalação do spark:
- Certifique-se de que o Java esteja instalado em sua máquina antes de instalar o spark.
- Se você usar o idioma scala, verifique se a balança já está instalada antes de usar o Apache Spark.
- Você também pode usar o Python em vez do Scala para programar no Spark, mas ele também deve ser pré-instalado como o Scala.
- Você também pode executar o Apache Spark no Windows, mas é recomendável criar uma máquina virtual e instalar o Ubuntu usando o Oracle Virtual Box ou VMWare Player .
- O Spark pode ser executado sem o Hadoop (modo Independente), mas se uma configuração de vários nós for necessária, serão necessários gerenciadores de recursos como YARN ou Mesos.
- Enquanto estiver usando o YARN, não é necessário instalar o Spark nos três nós. Você precisa instalar o Apache Spark apenas em um nó.
- Ao usar o YARN, se você estiver na mesma rede local que o cluster, poderá usar o modo cliente, enquanto que, se estiver longe, poderá usar o modo cluster.
Artigos recomendados - Spark Install
Este foi um guia sobre como instalar o Spark. Aqui, vimos como implantar o Apache Spark no modo Independente e no YARN do gerenciador de recursos, além de algumas dicas e truques também para uma instalação suave do Spark. Você também pode consultar o seguinte artigo para saber mais -
- Como usar os comandos do Spark
- Uma carreira no Spark - você deve tentar
- Diferenças de Splunk vs Spark
- Perguntas e respostas da entrevista do Spark
- Vantagens do Spark Streaming
- Tipos de junções no Spark SQL (exemplos)