Introdução às perguntas e respostas da entrevista com o administrador do Hadoop
Então, você finalmente encontrou o emprego dos seus sonhos no Hadoop Admin, mas está se perguntando como quebrar a entrevista do Hadoop Admin e quais poderiam ser as prováveis perguntas da entrevista do Hadoop Admin. Cada entrevista é diferente e o escopo de um trabalho também é diferente. Tendo isso em mente, criamos as perguntas e respostas mais comuns da entrevista de administrador do Hadoop para ajudá-lo a obter sucesso em sua entrevista.
A seguir, estão as perguntas da entrevista com o administrador do Hadoop que ajudarão você a iniciar uma entrevista com o Hadoop.
1. O que é reconhecimento de rack? E porque é necessário?
Responda:
O reconhecimento de rack é sobre a distribuição de nós de dados em vários racks.HDFS segue o algoritmo de reconhecimento de rack para colocar os blocos de dados. Um rack contém vários servidores. E para um cluster, pode haver vários racks. Digamos que exista um cluster do Hadoop configurado com 12 nós. Pode haver 3 racks com 4 servidores em cada um. Todos os 3 racks são conectados para que todos os 12 nós estejam conectados e que formem um cluster. Ao decidir sobre a contagem de racks, o ponto importante a considerar é o fator de replicação. Se houver 100 GB de dados que fluirão todos os dias com o fator de replicação 3. Em seguida, são 300 GB de dados que deverão residir no cluster. É uma opção melhor para replicar os dados nos racks. Mesmo se algum nó cair, a réplica estará em outro rack.
2. Qual é o tamanho padrão do bloco e como é definido?
Responda:
128 MB e está definido em hdfs-site.xml, e também é personalizável, dependendo do volume de dados e do nível de acesso. Por exemplo, 100 GB de dados fluindo em um dia, os dados são segregados e armazenados no cluster. Qual será o número de arquivos? 800 arquivos. (1024 * 100/128) (1024 à converte um GB em MB.) Há duas maneiras de definir o tamanho do bloco de dados de personalização.
- hadoop fs -D fs.local.block.size = 134217728 (em bits)
- Em hdfs-site.xml, adicione essa propriedade à block.size com o tamanho dos bits.
Se você alterar o tamanho padrão para 512 MB, pois o tamanho dos dados é enorme, o número de arquivos gerados será 200. (1024 * 100/512)
3. Como você obtém o relatório do sistema de arquivos hdfs? Sobre a disponibilidade do disco e o número de nós ativos?
Responda:
Comando: sudo -u hdfs dfsadmin –report
Esta é a lista de informações que ele exibe,
- Capacidade configurada - Capacidade total disponível em hdfs
- Capacidade atual - é a quantidade total de espaço alocado para os recursos residirem ao lado do uso do espaço do metastore e fsimage.
- DFS restante - é a quantidade de espaço de armazenamento ainda disponível para o HDFS para armazenar mais arquivos
- DFS Utilizado - É o espaço de armazenamento usado pelo HDFS.
- % Usado pelo DFS - em porcentagem
- Sob blocos replicados - Nº de blocos
- Blocos com réplicas corrompidas - se houver algum bloco corrompido
- Blocos ausentes
- Blocos ausentes (com fator de replicação 1)
4. O que é o balanceador Hadoop e por que é necessário?
Responda:
Os dados espalhados pelos nós não são distribuídos na proporção correta, o que significa que a utilização de cada nó pode não ser balanceada. Um nó pode estar superutilizado e o outro pode estar subutilizado. Isso leva a um alto efeito de custo durante a execução de qualquer processo e acabaria sendo executado com o uso intenso desses nós. Para resolver isso, é usado o balanceador Hadoop que equilibrará a utilização dos dados nos nós. Portanto, sempre que um balanceador é executado, os dados são movidos para onde os nós subutilizados são preenchidos e os nós superutilizados serão liberados.
5. Diferença entre Cloudera e Ambari?
Responda:
Cloudera Manager | Ambari |
Ferramenta de administração para Cloudera | Ferramenta de administração para obras Horton |
Monitora e gerencia todo o cluster e relata o uso e quaisquer problemas | Monitora e gerencia todo o cluster e relata o uso e quaisquer problemas |
Vem com serviço pago Cloudera | Código aberto |
6. Quais são as principais ações executadas pelo administrador do Hadoop?
Responda:
Monitorar a integridade do cluster - Existem muitas páginas de aplicativos que precisam ser monitoradas se algum processo for executado. (Servidor de histórico de tarefas, gerente de recursos YARN, gerente / ambary da Cloudera, dependendo da distribuição)
ativar segurança - SSL ou Kerberos
Ajustar desempenho - balanceador Hadoop
Adicione novos nós de dados conforme necessário - Alterações e configurações da infraestrutura
Opcional para ativar o Servidor de rastreamento do histórico de tarefas do MapReduce à Às vezes, reiniciar os serviços ajudaria a liberar memória cache. É quando o cluster com um processo vazio.
7. O que é o Kerberos?
Responda:
É uma autenticação necessária para que cada serviço seja sincronizado para executar o processo. É recomendável habilitar o Kerberos. Como estamos lidando com a computação distribuída, é sempre uma boa prática ter criptografia ao acessar os dados e processá-los. À medida que cada nó está conectado e qualquer passagem de informações ocorre através de uma rede. Como o Hadoop usa Kerberos, senhas não são enviadas através das redes. Em vez disso, as senhas são usadas para calcular as chaves de criptografia. As mensagens são trocadas entre o cliente e o servidor. Em termos simples, o Kerberos fornece identidade um ao outro (nós) de maneira segura com a criptografia.
Configuração no core-site.xml
Hadoop.security.authentication: Kerberos
8. Qual é a lista importante de comandos hdfs?
Responda:
Comandos | Objetivo |
hdfs dfs –ls | Para listar os arquivos do sistema de arquivos hdfs. |
Hdfs dfs –put | Copiar arquivo do sistema local para o sistema de arquivos hdfs |
Hdfs dfs –chmod 777 | Dê uma permissão de leitura, gravação e execução ao arquivo |
Hdfs dfs –get | Copie o arquivo do sistema de arquivos hdfs para o sistema de arquivos local |
Hdfs dfs –cat | Ver o conteúdo do arquivo no sistema de arquivos hdfs |
Hdfs dfs –rm | Remova o arquivo do sistema de arquivos hdfs. Mas ele será movido para o caminho do arquivo do lixo (é como uma lixeira no Windows) |
Hdfs dfs –rm –skipTrash | Remove o arquivo permanentemente do cluster. |
Hdfs dfs –touchz | Crie um arquivo no sistema de arquivos hdfs |
9. Como verificar os logs de um trabalho do Hadoop enviado no cluster e como finalizar o processo já em execução?
Responda:
logs de fios –aplicationId - O mestre do aplicativo gera logs em seu contêiner e será anexado ao ID que gera. Isso será útil para monitorar o status de execução do processo e as informações do log.
aplicação de fios –kill - Se um processo existente que estava sendo executado no cluster precisar ser finalizado, o comando kill será usado onde o ID do aplicativo for usado para finalizar o trabalho no cluster.
Artigo recomendado
Este foi um guia para a Lista de perguntas e respostas da entrevista com o administrador do Hadoop, para que o candidato possa reprimir essas perguntas da entrevista com o administrador do Hadoop facilmente. Você também pode consultar os seguintes artigos para saber mais
- Perguntas e respostas da entrevista com o Hadoop Cluster - As 10 mais úteis
- Perguntas da entrevista sobre modelagem de dados - 10 perguntas importantes
- Perguntas da entrevista do sistema SAS - As 10 principais perguntas úteis