Introdução às perguntas e respostas da entrevista com o administrador do Hadoop

Então, você finalmente encontrou o emprego dos seus sonhos no Hadoop Admin, mas está se perguntando como quebrar a entrevista do Hadoop Admin e quais poderiam ser as prováveis ​​perguntas da entrevista do Hadoop Admin. Cada entrevista é diferente e o escopo de um trabalho também é diferente. Tendo isso em mente, criamos as perguntas e respostas mais comuns da entrevista de administrador do Hadoop para ajudá-lo a obter sucesso em sua entrevista.

A seguir, estão as perguntas da entrevista com o administrador do Hadoop que ajudarão você a iniciar uma entrevista com o Hadoop.

1. O que é reconhecimento de rack? E porque é necessário?

Responda:
O reconhecimento de rack é sobre a distribuição de nós de dados em vários racks.HDFS segue o algoritmo de reconhecimento de rack para colocar os blocos de dados. Um rack contém vários servidores. E para um cluster, pode haver vários racks. Digamos que exista um cluster do Hadoop configurado com 12 nós. Pode haver 3 racks com 4 servidores em cada um. Todos os 3 racks são conectados para que todos os 12 nós estejam conectados e que formem um cluster. Ao decidir sobre a contagem de racks, o ponto importante a considerar é o fator de replicação. Se houver 100 GB de dados que fluirão todos os dias com o fator de replicação 3. Em seguida, são 300 GB de dados que deverão residir no cluster. É uma opção melhor para replicar os dados nos racks. Mesmo se algum nó cair, a réplica estará em outro rack.

2. Qual é o tamanho padrão do bloco e como é definido?

Responda:
128 MB e está definido em hdfs-site.xml, e também é personalizável, dependendo do volume de dados e do nível de acesso. Por exemplo, 100 GB de dados fluindo em um dia, os dados são segregados e armazenados no cluster. Qual será o número de arquivos? 800 arquivos. (1024 * 100/128) (1024 à converte um GB em MB.) Há duas maneiras de definir o tamanho do bloco de dados de personalização.

  1. hadoop fs -D fs.local.block.size = 134217728 (em bits)
  2. Em hdfs-site.xml, adicione essa propriedade à block.size com o tamanho dos bits.

Se você alterar o tamanho padrão para 512 MB, pois o tamanho dos dados é enorme, o número de arquivos gerados será 200. (1024 * 100/512)

3. Como você obtém o relatório do sistema de arquivos hdfs? Sobre a disponibilidade do disco e o número de nós ativos?

Responda:
Comando: sudo -u hdfs dfsadmin –report

Esta é a lista de informações que ele exibe,

  1. Capacidade configurada - Capacidade total disponível em hdfs
  2. Capacidade atual - é a quantidade total de espaço alocado para os recursos residirem ao lado do uso do espaço do metastore e fsimage.
  3. DFS restante - é a quantidade de espaço de armazenamento ainda disponível para o HDFS para armazenar mais arquivos
  4. DFS Utilizado - É o espaço de armazenamento usado pelo HDFS.
  5. % Usado pelo DFS - em porcentagem
  6. Sob blocos replicados - Nº de blocos
  7. Blocos com réplicas corrompidas - se houver algum bloco corrompido
  8. Blocos ausentes
  9. Blocos ausentes (com fator de replicação 1)

4. O que é o balanceador Hadoop e por que é necessário?

Responda:
Os dados espalhados pelos nós não são distribuídos na proporção correta, o que significa que a utilização de cada nó pode não ser balanceada. Um nó pode estar superutilizado e o outro pode estar subutilizado. Isso leva a um alto efeito de custo durante a execução de qualquer processo e acabaria sendo executado com o uso intenso desses nós. Para resolver isso, é usado o balanceador Hadoop que equilibrará a utilização dos dados nos nós. Portanto, sempre que um balanceador é executado, os dados são movidos para onde os nós subutilizados são preenchidos e os nós superutilizados serão liberados.

5. Diferença entre Cloudera e Ambari?

Responda:

Cloudera ManagerAmbari
Ferramenta de administração para ClouderaFerramenta de administração para obras Horton
Monitora e gerencia todo o cluster e relata o uso e quaisquer problemasMonitora e gerencia todo o cluster e relata o uso e quaisquer problemas
Vem com serviço pago ClouderaCódigo aberto

6. Quais são as principais ações executadas pelo administrador do Hadoop?

Responda:
Monitorar a integridade do cluster - Existem muitas páginas de aplicativos que precisam ser monitoradas se algum processo for executado. (Servidor de histórico de tarefas, gerente de recursos YARN, gerente / ambary da Cloudera, dependendo da distribuição)

ativar segurança - SSL ou Kerberos

Ajustar desempenho - balanceador Hadoop

Adicione novos nós de dados conforme necessário - Alterações e configurações da infraestrutura

Opcional para ativar o Servidor de rastreamento do histórico de tarefas do MapReduce à Às vezes, reiniciar os serviços ajudaria a liberar memória cache. É quando o cluster com um processo vazio.

7. O que é o Kerberos?

Responda:
É uma autenticação necessária para que cada serviço seja sincronizado para executar o processo. É recomendável habilitar o Kerberos. Como estamos lidando com a computação distribuída, é sempre uma boa prática ter criptografia ao acessar os dados e processá-los. À medida que cada nó está conectado e qualquer passagem de informações ocorre através de uma rede. Como o Hadoop usa Kerberos, senhas não são enviadas através das redes. Em vez disso, as senhas são usadas para calcular as chaves de criptografia. As mensagens são trocadas entre o cliente e o servidor. Em termos simples, o Kerberos fornece identidade um ao outro (nós) de maneira segura com a criptografia.

Configuração no core-site.xml
Hadoop.security.authentication: Kerberos

8. Qual é a lista importante de comandos hdfs?

Responda:

ComandosObjetivo
hdfs dfs –lsPara listar os arquivos do sistema de arquivos hdfs.
Hdfs dfs –putCopiar arquivo do sistema local para o sistema de arquivos hdfs
Hdfs dfs –chmod 777Dê uma permissão de leitura, gravação e execução ao arquivo
Hdfs dfs –getCopie o arquivo do sistema de arquivos hdfs para o sistema de arquivos local
Hdfs dfs –catVer o conteúdo do arquivo no sistema de arquivos hdfs
Hdfs dfs –rmRemova o arquivo do sistema de arquivos hdfs. Mas ele será movido para o caminho do arquivo do lixo (é como uma lixeira no Windows)
Hdfs dfs –rm –skipTrashRemove o arquivo permanentemente do cluster.
Hdfs dfs –touchzCrie um arquivo no sistema de arquivos hdfs

9. Como verificar os logs de um trabalho do Hadoop enviado no cluster e como finalizar o processo já em execução?

Responda:
logs de fios –aplicationId - O mestre do aplicativo gera logs em seu contêiner e será anexado ao ID que gera. Isso será útil para monitorar o status de execução do processo e as informações do log.

aplicação de fios –kill - Se um processo existente que estava sendo executado no cluster precisar ser finalizado, o comando kill será usado onde o ID do aplicativo for usado para finalizar o trabalho no cluster.

Artigo recomendado

Este foi um guia para a Lista de perguntas e respostas da entrevista com o administrador do Hadoop, para que o candidato possa reprimir essas perguntas da entrevista com o administrador do Hadoop facilmente. Você também pode consultar os seguintes artigos para saber mais

  1. Perguntas e respostas da entrevista com o Hadoop Cluster - As 10 mais úteis
  2. Perguntas da entrevista sobre modelagem de dados - 10 perguntas importantes
  3. Perguntas da entrevista do sistema SAS - As 10 principais perguntas úteis