Introdução às perguntas e respostas da entrevista do Apache PIG

Então você finalmente encontrou seu emprego dos sonhos no Apache PIG, mas estamos imaginando como quebrar a entrevista do Apache PIG de 2019 e quais poderiam ser as prováveis ​​perguntas da entrevista do Apache PIG. Cada entrevista do Apache PIG é diferente e o escopo de um trabalho também é diferente. Tendo isso em mente, criamos as perguntas e respostas mais comuns da entrevista do Apache PIG para ajudá-lo a obter sucesso em sua entrevista do Apache PIG.

A seguir, é apresentada a lista de perguntas da entrevista do Apache PIG para 2019, que são feitas principalmente

1. Quais são as principais diferenças entre o MapReduce e o Apache Pig?

Responda:
A seguir, estão as principais diferenças entre o Apache Pig e o MapReduce, devido às quais o Apache Pig entrou em cena:
• MapReduce é um modelo de processamento de dados de baixo nível, enquanto o Apache Pig é uma plataforma de fluxo de dados de alto nível
• Sem escrever as complexas implementações Java no MapReduce, os programadores podem obter as mesmas implementações facilmente usando o Pig Latin.
• O Apache Pig fornece tipos de dados aninhados, como malas, tuplas e mapas, conforme faltam no MapReduce.
• O Pig suporta operações de dados como filtros, junções, pedidos, triagem etc. com muitos operadores internos. Considerando que executar a mesma função no MapReduce é uma tarefa imensa.

2. Explique os usos do MapReduce no Pig.

Responda:
Os programas Apache Pig são escritos em uma linguagem de consulta conhecida como Pig Latin, que é semelhante à linguagem de consulta SQL. Para executar uma consulta, é necessário um mecanismo de execução. E o mecanismo do Pig converte as consultas em tarefas do MapReduce e, portanto, o MapReduce atua como o mecanismo de execução e é necessário para executar os programas.

3. Explique os usos do Pig.

Responda:
Podemos usar o porco em três categorias, são elas:
• Pipeline de dados ETL: ajuda a preencher nosso armazém de dados. O Pig pode encaminhar os dados para um aplicativo externo, ele aguardará até que termine para receber os dados processados ​​e continue a partir daí. É o caso de uso mais comum do Pig.
• Pesquisa em dados brutos.
Processamento iterativo.

4. Compare o Apache Pig e o SQL.

Responda:
• O Apache Pig difere do SQL no uso para ETL, avaliação lenta, armazenamento de dados em um determinado momento no pipeline, suporte para divisões de pipeline e declaração explícita de planos de execução. O SQL (Structural query language) é orientado em torno de consultas que produzem um único resultado. O SQL não possui um mecanismo embutido para dividir o fluxo de processamento de dados e aplicar diferentes operadores a cada sub-fluxo.
• O Apache Pig permite que o código do usuário seja incluído em qualquer ponto do pipeline, enquanto se o SQL, onde os dados serão usados, precisa primeiro ser importado para o banco de dados e, em seguida, o processo de limpeza e transformação é iniciado.

5. Explique sobre os diferentes tipos de dados complexos no Pig.

Responda:
O Apache Pig suporta três tipos de dados complexos -
• Mapas - são os principais armazenamentos de valor reunidos usando #.
Exemplo: ('cidade' # 'pune', 'pin' # 411045) • Tuplas - Igual à linha de uma tabela, onde itens diferentes são separados por vírgula. Tuplas podem ter vários atributos.
• Bolsas - uma coleção não ordenada de tuplas. O Bag permite múltiplas tuplas duplicadas.
Exemplo: (('Mumbai', 022), ('Nova Délhi', 011), ('Kolkata', 44))

6. Explique os diferentes modelos de execução disponíveis no Pig.

Responda:
São três modos de execução diferentes disponíveis no Pig,
• Modo interativo ou modo Grunt.
Modo interativo ou modo grunhido: o shell interativo do Pig é conhecido como shell grunhido. Se nenhum arquivo for especificado para execução no Pig, ele será iniciado.
• Modo de lote ou modo de script.
Pig executa os comandos especificados no arquivo de script.
• modo incorporado
Podemos incorporar programas Pig em Java e podemos executar os programas em Java.

7. Explique sobre os planos de execução (plano lógico e físico) de um Pig Script

Responda:
Planos lógicos e físicos são criados durante a execução de um script de porco. Os scripts do Pig são baseados na verificação do intérprete. O plano lógico é produzido por verificação semântica e análise básica e nenhum processamento de dados ocorre durante a criação de um plano lógico. Para cada linha no script Pig, a verificação de sintaxe é realizada para operadores e um plano lógico é criado. Sempre que um erro é encontrado no script, uma exceção é lançada e a execução do programa é encerrada; caso contrário, cada instrução no script tem seu próprio plano lógico.
Um plano lógico contém a coleção de operadores no script, mas não contém as arestas entre os operadores.
Após a geração do plano lógico, a execução do script é movida para o plano físico, onde há uma descrição dos operadores físicos, o Apache Pig utilizará para executar o script do Pig. Um plano físico é mais ou menos como uma série de tarefas do MapReduce, mas o plano não tem nenhuma referência sobre como será executado no MapReduce. Durante a criação de um plano físico, o operador lógico do cogrupo é convertido em três operadores físicos, a saber, - Reorganização local, Reorganização global e Pacote. As funções de carregamento e armazenamento geralmente são resolvidas no plano físico.

8. Quais são as ferramentas de depuração usadas para scripts do Apache Pig?

Responda:
Descrever e explicar são os importantes utilitários de depuração no Apache Pig.
• O utilitário Explain é útil para desenvolvedores do Hadoop ao tentar depurar erros ou otimizar scripts PigLatin. O explicar pode ser aplicado a um alias específico no script ou pode ser aplicado a todo o script no shell interativo grunt. O utilitário de explicação produz vários gráficos em formato de texto que podem ser impressos em um arquivo.
• O utilitário de descrição de depuração é útil para os desenvolvedores ao escrever scripts Pig, pois mostra o esquema de uma relação no script. Para iniciantes que estão tentando aprender o Apache Pig, pode usar o utilitário de descrição para entender como cada operador faz alterações nos dados. Um script de porco pode ter várias descrições.

9. Quais são alguns dos casos de uso do Apache Pig que você pode pensar?

Responda:
• A ferramenta de big data do Apache Pig é usada especialmente para processamento iterativo, pesquisa em dados brutos e para pipelines de dados ETL tradicionais. Como o Pig pode operar em circunstâncias em que o esquema não é conhecido, inconsistente ou incompleto, ele é amplamente usado por pesquisadores que desejam fazer uso dos dados antes de serem limpos e carregados no armazém de dados.
• Para criar modelos de previsão de comportamento, por exemplo, ele pode ser usado por um site para rastrear a resposta dos visitantes a vários tipos de anúncios, imagens, artigos etc.

10. Destaque a diferença entre os operadores de grupo e de grupo no Pig.

Responda:
Ambos os operadores podem trabalhar com uma ou mais relações. Os operadores de grupo e de grupo são idênticos. O operador do grupo coleta todos os registros com a mesma chave. Cogroup é uma combinação de grupo e junção, é uma generalização de um grupo, em vez de coletar registros de uma entrada depende de uma chave, ele coleta registros de n entradas com base em uma chave. Por vez, podemos agrupar até 127 relações.

Artigos recomendados

Este foi um guia para as perguntas e respostas da Lista de Entrevistas do Apache PIG, para que o candidato possa reprimir essas perguntas da Apache PIG Interview facilmente. Este artigo consiste em todas as perguntas e respostas úteis da entrevista do Apache PIG que ajudarão você em uma entrevista. Você também pode consultar os seguintes artigos para saber mais -

  1. Apache Hive vs Apache Pig
  2. Top 10 perguntas difíceis da entrevista
  3. 8 etapas eficazes para se preparar para uma entrevista interna
  4. Dicas importantes para sobreviver à entrevista no painel (útil)