Introdução à Hive Entrevista Perguntas e Respostas

Na nova era dos dados, o Hive é um pacote de ferramentas de infraestrutura de ETL e data warehousing em escala de petabyte de código aberto para armazenar dados estruturados e não estruturados criados no sistema de arquivos distribuídos (HDFS)
para analisar, consultar e extrair grandes conjuntos de dados de volume, habilitando uma linguagem semelhante ao SQL chamada HiveQL (HQL) e fácil execução de consultas, planejando o Hadoop MapReduce.

O Hive é construído sobre o Hadoop para processar e analisar Big Data e facilita as consultas.
A seção foi criada inicialmente pelo Facebook, mais tarde foi aprimorada e desenvolvida como código-fonte aberto pela Apache Software Foundation e a denominou Apache Hive. Atualmente, existem muitas empresas que usam o Apache Hive para suas soluções de Big Data.

Se você está procurando um emprego relacionado ao Hive, precisa se preparar para as Perguntas da entrevista do Hive 2018. Embora cada entrevista seja diferente e o escopo de um trabalho também seja diferente, podemos ajudá-lo com as principais perguntas e respostas do Hive Interview 2018, que ajudarão você a dar o salto e obter sucesso em sua entrevista.

Abaixo está a lista superior das perguntas da entrevista do Hive que são mais solicitadas em uma entrevista. Essas perguntas são divididas em duas partes:

Parte 1 - Perguntas da entrevista do Hive (Básica)

Esta primeira parte aborda as perguntas e respostas básicas da entrevista do Hive.

1. Liste os diferentes componentes da arquitetura Hive?

Responda:
Existem cinco componentes principais na arquitetura do Hive, listados abaixo:
• Interface do usuário (UI): atua como um comunicador entre usuários e drivers quando o usuário grava as consultas que a interface do usuário aceita e executa no driver, existem dois tipos de interface disponíveis: linha de comando e interface da GUI.
• Driver: mantém o ciclo de vida da consulta HiveQL. Ele recebe as consultas da interface do usuário e cria a sessão para processar a consulta.
• Compilador: recebe os planos de consulta do driver e obtém as informações necessárias do Metastore para executar o plano.
• Metastore: armazena as informações sobre os dados como uma tabela; pode ser de uma tabela interna ou externa. Ele envia as informações de metadados ao compilador para executar a consulta.
• Executar mecanismo: o serviço Hive executará o resultado no mecanismo de execução; ele executa a consulta no MapReduce para processar os dados. É responsável por controlar cada estágio de todos esses componentes.

2. Quais são os diferentes tipos de modos que o Hive pode operar?

Responda:
Essas são as perguntas comuns da entrevista do Hive, feitas em uma entrevista. O Hive pode operar em dois modos com base no tamanho dos dados,
Esses modos são:
• Modo de redução de mapa
•Modo local

3. Quais são os cenários em que o Hive pode ser usado e não pode ser usado?

Resposta :
Ao criar aplicativos de armazém de dados quando seus dados são estáticos, quando seu aplicativo não precisa de um tempo de resposta alto, quando o volume de dados é enorme, quando os dados não estão mudando rapidamente e quando você está usando consultas em vez de scripts. O Hive suporta apenas transações OLAP, não é adequado para transações OLTP.

Vamos para as próximas perguntas da entrevista do Hive.

4. Quais são os formatos de arquivo suportados pelo Hive? Listar os tipos de aplicativos suportados pelo HIVE?

Responda:
Por padrão, o Hive suporta o formato de arquivo de texto e também o formato de arquivo binário, como arquivo de sequência, arquivos ORC, arquivos Parquet e arquivos Avro Data.
• Arquivo de sequência: geralmente é um arquivo de formato binário, que pode ser compactado e pode ser dividido.
• Arquivo ORC: o arquivo Columnar de linha otimizado é um arquivo gravado baseado em coluna e um arquivo de armazenamento orientado a coluna.
• Arquivo parquet: é um arquivo binário orientado a colunas e é altamente eficiente para consultas em larga escala.
• Arquivo Avro Data: É o mesmo que o formato de arquivo de sequência, que é um arquivo divisível, compressível e orientado a linhas.
O tamanho máximo do tipo de dados da cadeia permitido no Hive é 2 GB.

O Hive é uma estrutura de armazém de dados adequada para os aplicativos que são escritos em Java, C ++, PHP, Python ou Ruby.

5. Quais são os diferentes tipos de tabela disponíveis no Hive?

Responda:
Existem dois tipos de tabela no aplicativo Hive, são eles:
• Tabelas gerenciadas: os dados e o esquema estão no controle do Hive.
• Tabelas externas: apenas o esquema está no controle do Hive.

Parte 2 - Perguntas da entrevista do Hive (avançado)

Vamos agora dar uma olhada nas perguntas avançadas da entrevista do Hive.

6. O que é um Metastore no Hive? Listar e explicar os diferentes tipos de configuração do Hive Metastores?

Responda:
O Metastore no Hive é usado para armazenar as informações de metadados, é um repositório central no Hive. Permite armazenar as informações de metadados em um banco de dados externo. Por padrão, o Hive armazena informações de metadados no banco de dados Derby, mas também pode ser armazenado em outros bancos de dados, como Oracle, MySql etc.
Existem três tipos de configuração do Metastore, são eles:
• Metastore incorporado: é um modo padrão; ele pode acessar localmente a biblioteca Hive, todas as operações da linha de comandos são feitas no modo incorporado. O serviço Hive, o serviço de metastore e o banco de dados são executados na mesma JVM.
• Metastore local: armazena dados em um banco de dados externo, como MySql ou Oracle. O serviço Hive e o serviço de metastore são executados na mesma JVM, eles se conectam ao banco de dados que está sendo executado na JVM separada.
• Metastore remoto: usa o modo remoto para executar consultas, aqui o serviço de metastore e o serviço de seção são executados em uma JVM separada. Você pode ter vários servidores de metastore para aumentar a disponibilidade.

7. O que é um processador de consulta Hive? Quais são os diferentes componentes do Hive Query Processor?

Responda:
Estas são as perguntas da entrevista do Hive mais frequentes em uma entrevista. O Hive Query Processor é usado para converter tarefas SQL em MapReduce. Com base na ordem das dependências, os trabalhos são executados.
Os componentes do Hive Query Processor estão listados abaixo:
• Analisador Semântico
• UDF e UDAF
Otimizador
•Operador
• Analisador
• Mecanismo de execução
• Verificação de tipo
• Geração de plano lógico
• Geração de plano físico

8. Qual é a funcionalidade do Object-Inspector no Hive?

Responda:
É composto pelo Hive, usado para identificar a estrutura das colunas individuais e a estrutura interna dos objetos de linha. Os objetos complexos armazenados em vários formatos podem ser acessados ​​usando o Object-Inspector no Hive.
O Object-Inspector identificará a estrutura de um objeto e as formas de acessar os campos internos dentro do objeto.

Vamos para as próximas perguntas da entrevista do Hive.

9. Quais são as diferentes maneiras de conectar os aplicativos ao Hive Server?

Responda:
Existem três maneiras de conectar os aplicativos ao servidor Hive, são eles:
• Cliente Thrift: É usado para executar todos os comandos hive usando uma linguagem de programação diferente, como Java, C ++, PHP, Python ou Ruby.
• Driver ODBC: suporta o protocolo ODBC
• Driver JDBC: suporta o protocolo JDBC

10. Qual é a classe de leitura e gravação padrão no Hive?

Responda:
Abaixo estão as aulas de leitura e gravação disponíveis no Hive:
• TextInputFormat - Esta classe é usada para ler dados em formato de texto sem formatação.
• HiveIgnoreKeyTextOutputFormat - Esta classe é usada para gravar dados em formato de texto sem formatação.
• SequenceFileInputFormat - Essa classe é usada para ler dados no formato de arquivo Hadoop Sequence.
• SequenceFileOutputFormat - Essa classe é usada para gravar dados no formato de arquivo Hadoop Sequence.

Artigo recomendado

Este foi um guia para as perguntas e respostas da lista de entrevistas do Hive, para que o candidato possa reprimir essas perguntas da entrevista do Hive facilmente. Você também pode consultar os seguintes artigos para saber mais -

  1. As 5 perguntas e respostas mais úteis da entrevista com o DBA
  2. 12 perguntas e respostas mais impressionantes da entrevista no GitHub
  3. 15 perguntas e respostas mais importantes da entrevista sobre Ruby
  4. As 10 perguntas mais importantes da entrevista do HBase