Introdução às perguntas e respostas da entrevista Hbase

O HBase é um sistema popular de gerenciamento de banco de dados NoSQL, orientado a colunas, executado em cima do Hadoop Distributed File System (HDFS). É adequado para conjuntos de dados esparsos, comuns em muitos casos de uso de big data.

Aqui estão as 10 perguntas e respostas mais frequentes da entrevista do HBase em 2019: Então, você finalmente encontrou o seu emprego dos sonhos no HBase, mas está se perguntando como quebrar a entrevista do Hbase e quais poderiam ser as prováveis ​​perguntas da entrevista do Hbase em 2019. Cada entrevista é diferente e o escopo de um trabalho também é diferente. Tendo isso em mente, criamos as perguntas e respostas mais comuns da entrevista Hbase para ajudá-lo a obter sucesso em sua entrevista. Essas perguntas são divididas em duas partes:

Parte 1 - Perguntas da entrevista do HBase (Básica)

Esta primeira parte aborda as perguntas e respostas básicas da entrevista do HBase.

1. Quando você deve usar o HBase?

Responda:
O Hbase não é adequado para todos os casos de uso. Um cenário mais adequado pode ser identificado com as seguintes verificações -
Volume i.Data: deve ter petabytes de dados para serem processados ​​em um ambiente distribuído.
ii.Aplicação: O HBase não é adequado para sistemas OLTP (Processamento de transações on-line) que exigem transações complexas com várias instruções.Também não possui suporte SQL complexo, necessário para análises relacionais.É preferível quando você tem uma enorme quantidade de dados com um esquema ligeiramente diferente.
iii. Hardware de cluster: O HBase é executado sobre o HDFS. E o HDFS funciona de maneira eficiente com um grande número de nós (no mínimo 5). Portanto, o HBase pode ser uma boa seleção apenas com um bom suporte de hardware.
iv. RDBMS não tradicional: O Hbase não pode suportar nenhum caso de uso que exija recursos tradicionais, como Juntar várias tabelas, SQls complexos com funções aninhadas ou de janela, etc.
v. Acesso aleatório rápido aos dados: se você precisar de um acesso aleatório e em tempo real aos dados, o HBase é um candidato adequado. Também é um ajuste perfeito para armazenar tabelas grandes com dados multi-estruturados.

2. Qual é a diferença entre Cassandra e HBase?

Responda:
O HBase e o Cassandra distribuíram o banco de dados NoSQL para Big Data do ecossistema Hadoop. Ambos criados para diferentes casos de uso.
O HBase possui um tipo de arquitetura mestre-escravo com vários componentes como Zookeeper, Namenode, HBase Master (Hmaster) e nós de dados etc. Cassandra trata todos os nós como mestres, o que significa que todos os nós são iguais e executam todas as funções.
O HBase é otimizado para leituras, a gravação está acontecendo apenas no nó mestre e possui uma consistência forte para leitura após a gravação. Cassandra tem excelente desempenho de leitura de linha única se a consistência eventual for selecionada.
O Hbase não suporta índices secundários, o Cassandra suporta índices secundários em famílias de colunas em que o nome da coluna é conhecido.
Inicialmente, o Hbase é criado no Google e o nomeou BigTable. Mesmo agora, as APIs do Bigtable e HBase são compatíveis. A origem do Cassandra é de um documento do DynamoDB, que é o banco de dados NoSQL da AWS.

Vamos para as próximas perguntas da entrevista do HBase.

3. Quais são os principais componentes do Hbase?

Responda:
O HBase a possui três componentes importantes - HMaster, Region Server e ZooKeeper.
i.HBase Master - As tabelas HBase são divididas em regiões. Enquanto o mestre de inicialização decide qual região atribuir a qual servidor da região (o servidor da região será um nó em um cluster). Ele também lida com operações de metadados da tabela, como criar ou alterar o esquema. Esse componente também desempenha um papel importante na recuperação de falhas
ii. Servidor de região - Como mencionado acima, é aqui que a gravação e leitura de dados reais acontecem. Estes são nós de cluster reais. Isso terá regiões de muitas tabelas, que são decididas iniciando e finalizando as chaves de linha. Um servidor de região típico pode atender até mil regiões
iii.ZooKeeper - O ZooKeeper é uma estrutura de coordenação de cluster amplamente usada no ecossistema do Hadoop . O Zookeeper rastreia todos os servidores (servidores mestre e de região) presentes nos contatos do cluster HMaster no ZooKeeper e as notificações são produzidas em caso de erros.

4. O que é o HBase Bloom Filter?

Responda:
Essas são as perguntas comuns da entrevista HBase feitas em uma entrevista. Um HBase Bloom Filter é um mecanismo eficiente para testar se um arquivo de armazenamento (quando algo é gravado no HBase, é primeiro gravado em um armazenamento na memória, quando esse armazenamento de memórias atinge um determinado tamanho, ele é liberado para o disco em um arquivo de armazenamento. ) contém uma linha específica ou célula de linha-col. Normalmente, a única maneira de decidir se uma chave de linha está presente em um arquivo de armazenamento é fazer o check-in do índice de blocos do arquivo, que possui a chave de linha inicial de cada bloco no arquivo de armazenamento. Os filtros Bloom atuam como uma estrutura de dados na memória que ajuda a reduzir as leituras de disco para apenas os arquivos que provavelmente contêm essa linha - nem todos os arquivos de armazenamento. Portanto, ele age como um índice na memória para indicar a probabilidade de encontrar uma linha em um arquivo de armazenamento específico.

5. O que é compactação? Explique diferentes tipos dele.

Responda:
O HBase armazena todas as operações recebidas em sua área de memória do memstore. Quando o buffer de memória está cheio, ele é liberado para o disco. Como isso pode criar muitos arquivos pequenos no HDFS, de tempos em tempos, o HBase pode selecionar os arquivos a serem compactados em um maior. Uma compactação é chamada Menor quando o HBase escolhe apenas alguns dos HFiles para serem compactados, mas não todos. Em uma compactação Maior, todos os arquivos são eleitos para serem compactados juntos. Uma compactação principal funciona como uma menor, exceto que os marcadores de exclusão podem ser removidos após serem aplicados a todas as células relacionadas e todas as versões extras da mesma célula também serão eliminadas.

Parte 2 - Perguntas da entrevista do HBase (avançado)

Vamos agora dar uma olhada nas perguntas avançadas da entrevista do HBase.

6.Como os dados da versão do HBase?

Responda:
Quando um dado é inserido / atualizado / excluído, o HBase criará uma nova versão para essa coluna. A exclusão real ocorre apenas durante a compactação. Se uma célula específica exceder um número de versões permitido, versões extras serão descartadas durante a compactação

7. Qual é a diferença entre obter e digitalizar?

Responda:
Get retornará uma única linha da tabela Hbase com base na chave de linha fornecida. O comando Scan retorna o conjunto de linhas, dependendo da condição de pesquisa. Geralmente, get é mais rápido que o scan. Portanto, deve preferir usar isso, se possível.

Vamos para as próximas perguntas da entrevista do HBase.

8. O que acontece ao excluir uma linha?

Responda:
No momento da exclusão, os dados do comando não são fisicamente excluídos do sistema de arquivos, tornando-os invisíveis ao definir um marcador. A exclusão física ocorre durante uma compactação
Os marcadores de exclusão de coluna, versão e família são três tipos diferentes de marcadores que marcam a exclusão de uma coluna, versão de coluna e família de colunas, respectivamente.

9. Explique a diferença entre HBase e Hive.

Responda:
Esta é a pergunta avançada da entrevista do HBase, feita em uma entrevista. HBase e Hive são tecnologias completamente diferentes baseadas em Hadoop para processamento de dados. O Hive é uma estrutura de armazenamento distribuído compatível com SQL do tipo relacional, enquanto o HBase é um armazenamento de valores-chave do NoSQL. O Hive atua como uma camada de abstração sobre o Hadoop com suporte a SQL. O padrão de acesso a dados do HBase é muito limitado com duas operações principais: obter e verificar. O HBase é ideal para processamento de dados em tempo real, onde o Hive é a escolha ideal para processamento de dados em lote.

10. O que são Hlog e HFile?

Responda:
HLog é o arquivo de log write-ahead, também conhecido como WAL e HFile é o arquivo de armazenamento de dados real. Os dados são gravados primeiro no arquivo de log write-ahead e também gravados no MemStore. Depois que o MemStore estiver cheio, o conteúdo do MemStore será liberado no disco para HFiles.

Artigo recomendado

Este foi um guia para a lista de perguntas e respostas da entrevista da Hbase, para que o candidato possa reprimir essas perguntas da entrevista da Hbase facilmente. Você também pode consultar os seguintes artigos para saber mais -

  1. Perguntas úteis para entrevistas em grupo
  2. Dicas básicas importantes da entrevista
  3. Etapas essenciais para a preparação da entrevista
  4. Perguntas da entrevista a pedir a um candidato das finanças