Perguntas da entrevista com o administrador do Hadoop - Mais úteis e mais solicitados

Introdução às perguntas e respostas da entrevista com o administrador do Hadoop

Então, você finalmente encontrou o emprego dos seus sonhos no Hadoop Admin, mas está se perguntando como quebrar a entrevista do Hadoop Admin e quais poderiam ser as prováveis perguntas da entrevista do Hadoop Admin. Cada entrevista é diferente e o escopo de um trabalho também é diferente. Tendo isso em mente, criamos as perguntas e respostas mais comuns da entrevista de administrador do Hadoop para ajudá-lo a obter sucesso em sua entrevista.

A seguir, estão as perguntas da entrevista com o administrador do Hadoop que ajudarão você a iniciar uma entrevista com o Hadoop.

1. O que é reconhecimento de rack? E porque é necessário?

Responda:
O reconhecimento de rack é sobre a distribuição de nós de dados em vários racks.HDFS segue o algoritmo de reconhecimento de rack para colocar os blocos de dados. Um rack contém vários servidores. E para um cluster, pode haver vários racks. Digamos que exista um cluster do Hadoop configurado com 12 nós. Pode haver 3 racks com 4 servidores em cada um. Todos os 3 racks são conectados para que todos os 12 nós estejam conectados e que formem um cluster. Ao decidir sobre a contagem de racks, o ponto importante a considerar é o fator de replicação. Se houver 100 GB de dados que fluirão todos os dias com o fator de replicação 3. Em seguida, são 300 GB de dados que deverão residir no cluster. É uma opção melhor para replicar os dados nos racks. Mesmo se algum nó cair, a réplica estará em outro rack.

2. Qual é o tamanho padrão do bloco e como é definido?

Responda:
128 MB e está definido em hdfs-site.xml, e também é personalizável, dependendo do volume de dados e do nível de acesso. Por exemplo, 100 GB de dados fluindo em um dia, os dados são segregados e armazenados no cluster. Qual será o número de arquivos? 800 arquivos. (1024 * 100/128) (1024 à converte um GB em MB.) Há duas maneiras de definir o tamanho do bloco de dados de personalização.

hadoop fs -D fs.local.block.size = 134217728 (em bits)
Em hdfs-site.xml, adicione essa propriedade à block.size com o tamanho dos bits.

Se você alterar o tamanho padrão para 512 MB, pois o tamanho dos dados é enorme, o número de arquivos gerados será 200. (1024 * 100/512)

3. Como você obtém o relatório do sistema de arquivos hdfs? Sobre a disponibilidade do disco e o número de nós ativos?

Responda:
Comando: sudo -u hdfs dfsadmin –report

Esta é a lista de informações que ele exibe,

Capacidade configurada - Capacidade total disponível em hdfs
Capacidade atual - é a quantidade total de espaço alocado para os recursos residirem ao lado do uso do espaço do metastore e fsimage.
DFS restante - é a quantidade de espaço de armazenamento ainda disponível para o HDFS para armazenar mais arquivos
DFS Utilizado - É o espaço de armazenamento usado pelo HDFS.
% Usado pelo DFS - em porcentagem
Sob blocos replicados - Nº de blocos
Blocos com réplicas corrompidas - se houver algum bloco corrompido
Blocos ausentes
Blocos ausentes (com fator de replicação 1)

4. O que é o balanceador Hadoop e por que é necessário?

Responda:
Os dados espalhados pelos nós não são distribuídos na proporção correta, o que significa que a utilização de cada nó pode não ser balanceada. Um nó pode estar superutilizado e o outro pode estar subutilizado. Isso leva a um alto efeito de custo durante a execução de qualquer processo e acabaria sendo executado com o uso intenso desses nós. Para resolver isso, é usado o balanceador Hadoop que equilibrará a utilização dos dados nos nós. Portanto, sempre que um balanceador é executado, os dados são movidos para onde os nós subutilizados são preenchidos e os nós superutilizados serão liberados.

5. Diferença entre Cloudera e Ambari?

Responda:

Cloudera Manager	Ambari
Ferramenta de administração para Cloudera	Ferramenta de administração para obras Horton
Monitora e gerencia todo o cluster e relata o uso e quaisquer problemas	Monitora e gerencia todo o cluster e relata o uso e quaisquer problemas
Vem com serviço pago Cloudera	Código aberto

6. Quais são as principais ações executadas pelo administrador do Hadoop?

Responda:
Monitorar a integridade do cluster - Existem muitas páginas de aplicativos que precisam ser monitoradas se algum processo for executado. (Servidor de histórico de tarefas, gerente de recursos YARN, gerente / ambary da Cloudera, dependendo da distribuição)

ativar segurança - SSL ou Kerberos

Ajustar desempenho - balanceador Hadoop

Adicione novos nós de dados conforme necessário - Alterações e configurações da infraestrutura

Opcional para ativar o Servidor de rastreamento do histórico de tarefas do MapReduce à Às vezes, reiniciar os serviços ajudaria a liberar memória cache. É quando o cluster com um processo vazio.

7. O que é o Kerberos?

Responda:
É uma autenticação necessária para que cada serviço seja sincronizado para executar o processo. É recomendável habilitar o Kerberos. Como estamos lidando com a computação distribuída, é sempre uma boa prática ter criptografia ao acessar os dados e processá-los. À medida que cada nó está conectado e qualquer passagem de informações ocorre através de uma rede. Como o Hadoop usa Kerberos, senhas não são enviadas através das redes. Em vez disso, as senhas são usadas para calcular as chaves de criptografia. As mensagens são trocadas entre o cliente e o servidor. Em termos simples, o Kerberos fornece identidade um ao outro (nós) de maneira segura com a criptografia.

Configuração no core-site.xml
Hadoop.security.authentication: Kerberos

8. Qual é a lista importante de comandos hdfs?

Responda:

Comandos	Objetivo
hdfs dfs –ls	Para listar os arquivos do sistema de arquivos hdfs.
Hdfs dfs –put	Copiar arquivo do sistema local para o sistema de arquivos hdfs
Hdfs dfs –chmod 777	Dê uma permissão de leitura, gravação e execução ao arquivo
Hdfs dfs –get	Copie o arquivo do sistema de arquivos hdfs para o sistema de arquivos local
Hdfs dfs –cat	Ver o conteúdo do arquivo no sistema de arquivos hdfs
Hdfs dfs –rm	Remova o arquivo do sistema de arquivos hdfs. Mas ele será movido para o caminho do arquivo do lixo (é como uma lixeira no Windows)
Hdfs dfs –rm –skipTrash	Remove o arquivo permanentemente do cluster.
Hdfs dfs –touchz	Crie um arquivo no sistema de arquivos hdfs

9. Como verificar os logs de um trabalho do Hadoop enviado no cluster e como finalizar o processo já em execução?

Responda:
logs de fios –aplicationId - O mestre do aplicativo gera logs em seu contêiner e será anexado ao ID que gera. Isso será útil para monitorar o status de execução do processo e as informações do log.

aplicação de fios –kill - Se um processo existente que estava sendo executado no cluster precisar ser finalizado, o comando kill será usado onde o ID do aplicativo for usado para finalizar o trabalho no cluster.

Artigo recomendado

Este foi um guia para a Lista de perguntas e respostas da entrevista com o administrador do Hadoop, para que o candidato possa reprimir essas perguntas da entrevista com o administrador do Hadoop facilmente. Você também pode consultar os seguintes artigos para saber mais

Perguntas e respostas da entrevista com o Hadoop Cluster - As 10 mais úteis
Perguntas da entrevista sobre modelagem de dados - 10 perguntas importantes
Perguntas da entrevista do sistema SAS - As 10 principais perguntas úteis

Perguntas da entrevista com o administrador do Hadoop - Mais úteis e mais solicitados

Índice:

Introdução às perguntas e respostas da entrevista com o administrador do Hadoop

1. O que é reconhecimento de rack? E porque é necessário?

2. Qual é o tamanho padrão do bloco e como é definido?

3. Como você obtém o relatório do sistema de arquivos hdfs? Sobre a disponibilidade do disco e o número de nós ativos?

4. O que é o balanceador Hadoop e por que é necessário?

5. Diferença entre Cloudera e Ambari?

6. Quais são as principais ações executadas pelo administrador do Hadoop?

7. O que é o Kerberos?

8. Qual é a lista importante de comandos hdfs?

9. Como verificar os logs de um trabalho do Hadoop enviado no cluster e como finalizar o processo já em execução?

Artigo recomendado

Provedores de serviços de computação em nuvem - Os 5 principais provedores de serviços em nuvem

Rede em nuvem - O que é rede em nuvem com benefícios e tipos

Ferramentas de monitoramento em nuvem - As 9 principais ferramentas de monitoramento em nuvem

Provedores de hospedagem na nuvem - Os 4 principais provedores de hospedagem na nuvem com recursos

Ferramentas de segurança na nuvem - As 10 principais ferramentas de segurança na nuvem

Gerenciamento de projetos da Microsoft - Origem e versão diferente do software

Plano de Projeto da Microsoft - Recursos importantes do plano de projetos da Microsoft

Planejador do Microsoft Project - Principais recursos do Microsoft Project Planner

Dicas do Microsoft Office para facilitar sua vida - edu CBA

Mental Ray no 3ds Max - Usando efeitos Mental Ray para o projeto de modelo

Funções anônimas no Matlab - Etapas e vantagem com exemplos

Comandos Ansible - Conceitos - Comandos básicos e avançados

ANOVA em R - Modelo ANOVA e Benefícios, juntamente com Exemplos

Ansible vs Puppet - Descubra a comparação dos 10 principais entre Ansible e Puppet

Ansible vs Puppet vs Chef - As 18 principais diferenças que você deve saber