Introdução ao Spark Entrevista Perguntas e Respostas

O Apache Spark é uma estrutura de código aberto. Spark, por ser uma plataforma de código aberto, podemos usar várias linguagens de programação, como java, python, Scala, R. Em comparação com o desempenho do processo Map-Reduce, o spark ajuda a melhorar o desempenho da execução. Ele também fornece execução na memória 100 vezes mais rápida que o Map-Reduce. Por causa do poder de processamento da faísca atualmente, as indústrias estão preferindo a faísca.

Então, você finalmente encontrou o emprego dos seus sonhos no Spark, mas está se perguntando como quebrar a entrevista do Spark e quais poderiam ser as prováveis ​​perguntas da entrevista do Spark para 2018. Cada entrevista é diferente e o escopo de um trabalho também. Tendo isso em mente, criamos as perguntas e respostas mais comuns para a entrevista do Spark para 2018 para ajudá-lo a obter sucesso em sua entrevista.

Essas perguntas são divididas em duas partes

Parte 1 - Perguntas da entrevista do Spark (Básica)

Esta primeira parte abrange perguntas e respostas básicas da entrevista do Spark

1. O que é o Spark?

Responda:
O Apache Spark é uma estrutura de código aberto. Melhora o desempenho da execução do que o processo Map-Reduce. É uma plataforma aberta onde podemos usar várias linguagens de programação como Java, Python, Scala, R. O Spark fornece execução na memória 100 vezes mais rápida que o Map-Reduce. Ele usa o conceito de RDD. O RDD é um conjunto de dados distribuído resiliente que permite armazenar dados na memória de forma transparente e persistir em disco apenas quando necessário. É aqui que reduz o tempo para acessar os dados da memória em vez do disco. Hoje, a indústria prefere o Spark por causa de seu poder de processamento.

2. Diferença entre o Hadoop e o Spark?

Responda:

Critérios de recursosApache SparkHadoop
Rapidez10 a 100 vezes mais rápido que o HadoopVelocidade normal
Em processamentoProcessamento em lote e em tempo real, Memória, Armazenamento em cacheApenas processamento em lote, dependente de disco
DificuldadeFácil por causa dos módulos de alto nívelDifícil de aprender
RecuperaçãoPermite a recuperação de partições usando RDDTolerante a falhas
InteratividadePossui modos interativos e interativosNenhum modo interativo, exceto Pig & Hive, nenhum modo iterativo

A arquitetura normal do Hadoop segue a Redução de mapa básica. Para o mesmo processo, o spark fornece execução na memória. Em vez de ler e gravar no disco rígido do Map-Reduce, o spark fornece leitura e gravação na memória virtual.

Vamos para as próximas perguntas da entrevista do Spark

3. Quais são os recursos do Spark?

Responda:

  1. Forneça facilidade de integração com o Hadoop e arquivos no HDFS. O Spark pode ser executado sobre o Hadoop usando o cluster de recursos YARN. O Spark tem capacidade para substituir o mecanismo Map-Reduce do Hadoop.
  2. Polyglot: Spark Forneça API de alto nível para Java, Python, Scala e R. Spark Code pode ser escrito em qualquer uma dessas quatro linguagens. A TI fornece um shell independente para a escala (a linguagem na qual o Spark está escrito) e um intérprete python. O que ajudará a interagir com o mecanismo de faísca? O shell Scala pode ser acessado através de ./bin/spark-shell e o Python através de ./bin/pyspark no diretório instalado.
  3. Velocidade: o mecanismo Spark é 100 vezes mais rápido que o Hadoop Map-Reduce para processamento de dados em larga escala. A velocidade será alcançada através do particionamento para paralelizar o processamento de dados distribuídos com o mínimo tráfego de rede. Spark Fornece RDDs (conjuntos de dados distribuídos resilientes), que podem ser armazenados em cache nos nós de computação em um cluster
  4. Vários formatos: O Spark tem uma API de fonte de dados. Ele fornecerá um mecanismo para acessar dados estruturados por meio do spark SQL. As fontes de dados podem ser qualquer coisa, o Spark apenas criará um mecanismo para converter os dados e puxá-los para o centelha. O Spark suporta várias fontes de dados como Hive, HBase, Cassandra, JSON, Parquet, ORC.
  5. O Spark fornece algumas bibliotecas embutidas para executar várias tarefas do mesmo núcleo, como processamento em lote, vapor, aprendizado de máquina e consultas SQL interativas. No entanto, o Hadoop suporta apenas o processamento em lote. Spark Forneça o MLIb (bibliotecas de aprendizado de máquina) que será útil para o Big-Data Developer processar os dados. Isso ajuda a remover dependências de várias ferramentas para finalidades diferentes. O Spark fornece uma plataforma poderosa comum para engenheiros de dados e cientistas de dados, com desempenho rápido e fácil de usar.
  6. O Apache Spark atrasa a execução do processo até que a ação seja necessária. Este é um dos principais recursos do Spark. O Spark adicionará cada transformação ao DAG (Direct Acyclic Graph) para execução, e quando a ação deseja executar, ele realmente aciona o DAG para processar.
  7. Streaming em tempo real: o Apache Spark fornece cálculos em tempo real e baixa latência, devido à execução na memória. O Spark foi projetado para grandes escalabilidades, como um nó de mil clusters e vários modelos para cálculos.

4. O que é o fio?

Responda:
Estas são as perguntas básicas da entrevista do Spark feitas em uma entrevista. YARN (outro negociador de recursos) é o gerente de recursos. O Spark é uma plataforma que fornece execução rápida. O Spark usará o YARN para a execução da tarefa no cluster, em vez de seu próprio gerenciador interno. Existem algumas configurações para executar o Yarn. Eles incluem mestre, modo de implantação, memória do driver, memória do executor, núcleos do executor e fila. Estas são as perguntas comuns da entrevista do Spark que são feitas em uma entrevista abaixo e as vantagens do spark:

Vantagens do Spark sobre o Map-Reduce

O Spark tem vantagens sobre o Map-Reduce da seguinte forma: -
Devido à capacidade do processo In-memory, o Spark é capaz de executar de 10 a 100 vezes mais rápido que o Map-Reduce. Onde Map-Reduce pode ser usado para persistência de dados no estágio Map and Reduce.

O Apache Spark fornece um alto nível de bibliotecas embutidas para processar várias tarefas ao mesmo tempo como processamento em lote, streaming em tempo real, Spark-SQL, streaming estruturado, MLib, etc. Ao mesmo tempo, o Hadoop fornece apenas processamento em lote.
O processo Hadoop Map-Reduce dependerá do disco, onde o Spark fornece Armazenamento em Cache e Memória.

O Spark possui iterativo, realiza cálculos múltiplos no mesmo conjunto de dados e interativo, realiza cálculos entre diferentes conjuntos de dados nos quais o Hadoop não suporta computação iterativa.

5. Qual é o idioma suportado pelo Spark?

Responda:
Spark suporta scala, Python, R e Java. No mercado, o desenvolvedor de big data prefere scala e python. Para que uma escala compile o código, precisamos do diretório Set Path of scale / bin ou para criar um arquivo jar.

6. O que é RDD?

Responda:
RDD é uma abstração do Resilient Distributed Dataset, que fornece uma coleção de elementos particionados em todos os nós do cluster, o que ajudará a executar vários processos em paralelo. Usando o RDD, o desenvolvedor pode armazenar os dados na memória ou no cache, para serem reutilizados com eficiência para execução paralela de operações. O RDD pode ser recuperado facilmente da falha do nó.

Parte 2 - Perguntas da entrevista do Spark (avançado)

Vamos agora dar uma olhada nas perguntas avançadas da entrevista do Spark.

7. Quais são os fatores responsáveis ​​pela execução do Spark?

Responda:
1. O Spark fornece execução na memória, em vez de depender do disco, como o Hadoop Map-Reduce.
2.RDD Conjunto de dados distribuído resiliente, que é uma execução paralela responsável de várias operações em todos os nós de um cluster.
3. O Spark fornece um recurso de variável compartilhada para execução paralela. Essas variáveis ​​ajudam a reduzir a transferência de dados entre nós e compartilhar uma cópia de todos os nós. Existem duas variáveis.
Variável 4.Broadcast: Essa variável pode ser usada para armazenar em cache um valor na memória em todos os nós
5. Variável de Acumuladores: Essa variável é apenas "adicionada" a, como contadores e somas.

8. O que é memória do executor?

Responda:
Estas são as perguntas freqüentes da entrevista do Spark em uma entrevista. É o tamanho do heap alocado para o executor de spark. Esta propriedade pode ser controlada pela propriedade spark.executor.memory do sinalizador –executor-memory. Cada aplicativo Spark possui um executor para cada nó do trabalhador. Esta propriedade refere-se a quanta memória dos nós do trabalhador será alocada para um aplicativo.

9. Como você usa o Spark Stream? Explicar Um caso de uso?

Responda:
O Spark Stream é um dos recursos úteis para um caso de uso em tempo real. Nós podemos usar calha, Kafka com uma faísca para esse fim. O Flume acionará os dados de uma fonte. Kafka irá manter os dados no tópico. A partir do Kafka, o Spark puxará os dados usando o fluxo e fará o fluxo D dos dados e executará a transformação.

Podemos usar esse processo para transações suspeitas em tempo real, ofertas em tempo real etc.

Vamos para as próximas perguntas da entrevista do Spark

10. Podemos usar o Spark para o processo ETL?

Responda:
Sim, podemos usar a plataforma spark para o processo ETL.

11. O que é o Spark SQL?

Responda:
É um componente especial do spark que suporta consultas SQL.

12. Qual avaliação preguiçosa?

Responda:
Quando estamos trabalhando com uma centelha, as transformações não são avaliadas até que você execute uma ação. Isso ajuda a otimizar o fluxo de trabalho geral do processamento de dados. Ao definir a transformação, ela será adicionada ao DAG (Direct Acyclic Graph). E no momento da ação, ele começará a executar transformações passo a passo. Essa é a útil pergunta da entrevista do Spark, feita em uma entrevista.

Artigo recomendado

Este foi um guia para a lista de perguntas e respostas da entrevista do Spark, para que o candidato possa reprimir essas perguntas da entrevista do Spark facilmente. Você também pode consultar os seguintes artigos para saber mais:

  1. Java vs Node JS simplificando as diferenças
  2. Perguntas da entrevista com o banco de dados Mongo | Útil e mais solicitado
  3. As 15 perguntas e respostas mais bem-sucedidas da entrevista R
  4. Perguntas e respostas da entrevista de Perl
  5. Perguntas da entrevista do sistema SAS - As 10 principais perguntas úteis