Perguntas e respostas da entrevista do Hadoop Cluster

O objetivo deste artigo é ajudar todos os aspirantes a Big Data a responder a todas as perguntas da Entrevista do Hadoop Cluster relacionadas à configuração do Big Data Environment em uma organização. Este questionário ajudará na configuração de Nós de dados, Nome de nó e definição da capacidade do servidor hospedado dos daemons de Big Data.

Portanto, se você finalmente encontrou o emprego dos seus sonhos no Hadoop Cluster, mas está se perguntando como fazer a entrevista no Hadoop Cluster e quais poderiam ser as prováveis ​​perguntas da entrevista no Hadoop Cluster. Cada entrevista é diferente e o escopo de um trabalho também é diferente. Tendo isso em mente, criamos as perguntas e respostas mais comuns da entrevista do cluster do Hadoop para ajudá-lo a obter sucesso em sua entrevista.

Algumas das perguntas mais importantes da entrevista com o Hadoop Cluster que são feitas com frequência em uma entrevista são as seguintes:

1. Quais são os principais componentes do Hadoop no cluster Hadoop?

Responda :
O Hadoop é uma estrutura na qual processamos big data ou o Hadoop é a plataforma na qual é possível processar a enorme quantidade de dados em servidores comuns. Hadoop é a combinação de muitos componentes. A seguir, estão os principais componentes no ambiente Hadoop.
Nó de nome : é o Nó Mestre que cuida de todas as informações dos nós de dados e local de armazenamento de dados no formato de metadados.
Nó de Nome Secundário : Funciona como Nó de Nome Primário se o Nó de Nome Primário ficar inativo.
HDFS (Sistema de Arquivos Distribuídos Hadoop) : cuida de todo o armazenamento do cluster Hadoop.
Nós de dados : nós de dados são nós escravos. Os dados reais são salvos nos nós escravos para processamento.
YARN (ainda outro negociador de recursos) : Uma estrutura de software para escrever os aplicativos e processar grandes quantidades de dados. Ele fornece os mesmos recursos do MapReduce, além de permitir que cada tarefa em lote seja executada paralelamente no cluster Hadoop.

2.Como planejar o armazenamento de dados no cluster Hadoop?

Responda :
O armazenamento é baseado na fórmula (Armazenamento = ingestão diária de dados * Replicação).
Se o cluster do Hadoop estiver obtendo dados de 120 TB diariamente e tivermos um fator de replicação padrão, o requisito diário de armazenamento de dados será
Requisito de armazenamento = 120 TB (ingestão diária de dados) * 3 (replicação padrão) => 360 TB
Como resultado, precisamos configurar pelo menos o cluster de dados de 360 ​​TB para os requisitos diários de ingestão de dados.
O armazenamento também depende dos requisitos de retenção de dados. Caso desejemos que os dados sejam armazenados por 2 anos no mesmo cluster, precisamos organizar nós de dados conforme o requisito de retenção.

3.Calcular números do nó de dados.

Responda :
Precisamos calcular um número de nós de dados necessários para o cluster Hadoop. Suponha que tenhamos servidores com JBOD de 10 discos e cada disco tenha tamanho de armazenamento de 4 TB, portanto cada servidor tenha armazenamento de 40 TB. O cluster Hadoop está obtendo dados de 120 TB por dia e 360 ​​TB após a aplicação do fator de replicação padrão.
Nº de nós de dados = ingestão diária de dados / capacidade do nó de dados
Nº de nós de dados = 360/40 => 9 nós de dados
Portanto, para o cluster Hadoop que obtém dados de 120 TB com a configuração acima, é necessário configurar apenas 9 nós de dados.

4.Como alterar o fator de replicação no cluster Hadoop?

Responda :
Edite o arquivo hdfs-site.xml. O caminho padrão está na pasta conf / do diretório de instalação do Hadoop. altere / adicione a seguinte propriedade em hdfs-site.xml:
dfs.replication
3
Replicação de bloco
Não é obrigatório ter o fator de replicação 3. Ele também pode ser definido como 1. O fator de replicação 5 também funciona no cluster do Hadoop. A configuração do valor padrão torna o cluster mais eficiente e o hardware mínimo é necessário.
Aumentar o fator de replicação aumentaria os requisitos de hardware, pois o armazenamento de dados é multiplicado pelo fator de replicação.

5. Qual é o tamanho padrão do bloco de dados no Hadoop e como modificá-lo?

Responda :
O tamanho do bloco reduz / divide os dados em blocos e os salva em nós de dados diferentes.
Por padrão, o tamanho do bloco é de 128 MB (no Apache Hadoop) e podemos modificar o tamanho padrão do bloco.
Edite o arquivo hdfs-site.xml. O caminho padrão está na pasta conf / do diretório de instalação do Hadoop. altere / adicione a seguinte propriedade em hdfs-site.xml:
dfs.block.size
134217728
Tamanho do bloco
o tamanho do bloco em bytes é 134.217.728 ou 128MB. Além disso, especifique o tamanho com sufixo (sem distinção entre maiúsculas e minúsculas), como k (kilo-), m (mega-), g (giga-) ou t (tera-) para definir o tamanho do bloco em KB, MB, TB, etc.

6. Quanto tempo o cluster do Hadoop deve manter um arquivo HDFS excluído no diretório delete / lixo?

Responda :
O "fs.trash.interval" é o parâmetro que especifica por quanto tempo o HDFS pode manter qualquer arquivo excluído no ambiente Hadoop para recuperar o arquivo excluído.
O período do intervalo pode ser definido apenas em minutos. Por um período de recuperação de 2 dias, precisamos especificar a propriedade em um formato corrido.
Edite o arquivo core-site.xml e adicione / modifique-o usando a seguinte propriedade
fs.trash.interval
2880
Por padrão, o intervalo de recuperação é 0, mas o Hadoop Administrator pode adicionar / modificar a propriedade acima conforme o requisito.

7. Quais são os comandos básicos para iniciar e parar os daemons do Hadoop?

Responda :
Todos os comandos para iniciar e parar os daemons armazenados na pasta sbin /.
./sbin/stop-all.sh - Para parar todos os daemons de uma vez.
hadoop-daemon.sh start name node
Nó de dados de inicialização do Hadoop-daemon.sh
yarn-daemon.sh, inicie o gerenciador de recursos
yarn-daemon.sh, inicie o gerenciador de nós
mr-jobhistory-daemon.sh iniciar servidor de histórico

8.Qual é a propriedade para definir a alocação de memória para tarefas gerenciadas pelo YARN?

Responda :
A propriedade “yarn.nodemanager.resource.memory-mb” precisa ser modificada / adicionada para alterar a alocação de memória para todas as tarefas gerenciadas pelo YARN.
Especifica a quantidade de RAM em MB. Os nós de dados usam 70% da RAM real para serem utilizados no YARN. O nó de dados com 96 GB usará 68 GB para YARN, o restante da RAM é usado pelo daemon Data Node para "Non-YARN-Work"
Edite o arquivo “arquivo yarn.xml” e adicione / modifique a seguinte propriedade.
yarn.nodemanager.resource.memory-mb
68608
O valor padrão de yarn.nodemanager.resource.memory-mb é 8.192MB (8GB). Se os nós de dados tiverem grande capacidade de RAM, devemos mudar para um valor de até 70%, caso contrário estaremos desperdiçando nossa memória.

9. Quais são as recomendações para Dimensionar o nó de nome?

Responda :
Os detalhes a seguir são recomendados para configurar o Nó Mestre em um estágio muito inicial.
Processadores: Para processos, uma única CPU com 6-8 núcleos é suficiente.
Memória RAM: para o processamento de dados e trabalhos, o servidor deve ter pelo menos 24 a 96 GB de RAM.
Armazenamento: Como nenhum dado HDFS é armazenado no nó Mestre. Você pode 1-2 TB como armazenamento local
Como é difícil decidir cargas de trabalho futuras, projete seu cluster selecionando hardware como CPU, RAM e memória que podem ser facilmente atualizadas com o tempo.

10. Quais são as portas padrão no cluster Hadoop?

Responda :

Nome do DaemonPorta padrão Não
Nome do nó.50070
Nós de dados.50075
Nó de nome secundário.50090
Nó de backup / ponto de verificação.50105
Job Tracker.50030
Rastreadores de tarefas.50060

Artigos recomendados

Este foi um guia para a Lista de perguntas e respostas da entrevista do Hadoop Cluster, para que o candidato possa reprimir essas perguntas da entrevista do Hadoop Cluster facilmente. Você também pode consultar os seguintes artigos para saber mais -

  1. Perguntas e respostas da entrevista sobre o Elasticsearch, principais e mais úteis
  2. 9 perguntas e respostas surpreendentes da entrevista do MapReduce
  3. 8 Guia mais útil para perguntas da entrevista sobre Big Data
  4. Perguntas e respostas da entrevista sobre ETL que você deve saber