Introdução aos agendadores do Hadoop

Quando falamos sobre o Hadoop, a primeira coisa que vem à mente é o big data. Mas já imaginamos que o Hadoop, por si só, não é apenas uma tecnologia, mas engloba muitas ferramentas e técnicas, de modo que exatamente somos capazes de alcançar o que é pretendido através do Hadoop automaticamente. A resposta para essa pergunta é usar agendadores do Hadoop.

Ele permite um alto nível de processamento do sistema e também é conhecido como sistema de uso geral, que atua no nível de distribuição de um conjunto de dados e informações. É um sistema multitarefa usado para processar vários conjuntos de dados para muitos usuários e trabalhos simultaneamente. Anteriormente, apenas um agendador estava sendo usado para todas as tarefas, mas agora os agendadores do Hadoop são os usados ​​junto com a lógica do JobTracker e também são suportados pelo Hadoop.

Os quatro principais tipos de agendadores do Hadoop

Existem vários tipos de agendadores do Hadoop que costumamos usar:

1. Hadoop Primeiro a entrar, primeiro agendador

  • Como o nome sugere, esse é um dos agendadores de tarefas mais antigos que trabalha com o princípio de primeiro a entrar e primeiro a sair. Basicamente, quando falamos sobre processos como o do JobTracker, falamos sobre retirar trabalhos da fila, que costuma ser a fila de trabalhos.
  • De acordo com a fila de trabalhos, o trabalho mais antigo, ou seja, o primeiro, será o primeiro a ser executado.
  • Sempre se acreditou que essa era uma abordagem muito mais simples do que outras técnicas de agendamento e, portanto, não se pensou muito em raspar essa técnica apenas para encontrar abordagens mais novas com melhores recursos de agendamento, pois elas também incluíam em si mesmos conceitos de dimensionamento e prioridade do trabalho.

2. Agendador de capacidade do Hadoop

  • O agendador de capacidade do Hadoop é mais ou menos como a abordagem FIFO, exceto que também faz uso da priorização do trabalho. Essa é uma abordagem um pouco diferente quando falamos sobre o nível de agendamento para vários usuários.
  • Este é conhecido por agendar e simular um MapReduce Cluster separado para cada organização ou usuário, o que é feito juntamente com o tipo de agendamento FIFO.

3. Programador do tipo justo do Hadoop

  • Quando é necessário fornecer uma quantidade separada e razoável de capacidade do cluster com tempo e período, usamos o planejador justo do Hadoop. É útil para obter todos os clusters, mesmo que um trabalho específico esteja em condições de execução.
  • Além disso, todos os slots livres do cluster são fornecidos a todos os trabalhos de maneira que cada usuário obtenha um compartilhamento normalizado da parte do cluster à medida que mais trabalhos se tornam úteis para serem enviados.
  • Se houver um pool que ainda não recebeu sua parte do fair share e um normalizado por uma quantidade razoavelmente boa de tempo e período, a preempção entra em ação, eliminando todas as tarefas do pool e funcionando com a capacidade de fornecê-lo. slots para rodar sob capacidade.
  • Além disso, isso também é conhecido como módulo contrib, o que significa que, copiando o diretório baseado em controle e agendador justo do Hadoop no diretório baseado em lib e colocando o arquivo JAR no local apropriado, essa técnica de agendamento pode ser ativada. A única coisa que precisa ser feita é configurar a propriedade do agendador de tarefas para mapred.FairScheduler.

4. Outras abordagens em relação ao agendador

  • O Hadoop garante oferecer um fornecimento de clusters virtuais, o que significa que a necessidade de ter clusters físicos reais pode ser minimizada e essa técnica é conhecida como HOD (Hadoop on Demand).
  • Ele utiliza o gerenciador de recursos baseado em torque para manter os nós ativos e sua alocação conforme os requisitos do cluster virtual.
  • É usado para inicializar a carga e o sistema que se baseia nos nós específicos dentro do cluster virtual e não físico e também junto com os nós alocados, apenas quando os arquivos de configuração são preparados automaticamente.
  • O cluster HOD também pode ser usado de maneira comparativamente muito independente, uma vez que a inicialização ocorreu. Em poucas palavras, um modelo de casca de noz usado para a implantação desses grandes clusters do Hadoop está dentro da infraestrutura de nuvem e é isso que é chamado de HOD. Ele compartilha um número menor de nós comparativamente e, portanto, fornece uma quantidade maior de segurança.

Importância do uso de agendadores Hadoop

  1. Dos tipos de agendadores do Hadoop, deve ficar claro onde está a importância do uso desses agendadores. Se você estiver executando um cluster grande com diferentes tipos de tarefas, diferentes prioridades e tamanhos, juntamente com vários clientes, escolha o tipo certo de agendador do Hadoop para se tornar importante.
  2. Isso é importante, pois garante o acesso garantido ao nível de capacidade não utilizado e a utilização ideal dos recursos, priorizando os trabalhos de maneira eficiente nas filas. Embora essa parte dos agendadores do Hadoop seja comparativamente fácil, o uso de agendadores justos é geralmente a escolha certa se houver uma diferença entre o número e os tipos de clusters em execução em uma única organização.
  3. Esse agendador justo ainda pode ser usado para fornecer e distribuir de maneira não uniforme a capacidade de trabalhos de pool e é feito de uma maneira muito mais simples e configurável. O agendador da feira também vem em nosso socorro quando falamos sobre a presença de tipos diversificados de trabalhos, pois ele pode ser usado para fornecer tempos de resposta mais altos para trabalhos comparativamente menores, misturados com os tipos maiores de trabalhos, e o suporte a eles está incluído no o uso interativo de modelos.
  4. Os planejadores de capacidade são úteis, quando você está mais preocupado com as filas, em vez do nível de conjuntos criados, e também com o nível configurável do mapa e com os slots de tipo de trabalhos reduzidos, e a fila pode se permitir obter uma capacidade garantida do cluster.

Conclusão

Nesta postagem, lemos sobre os agendadores do Hadoop, seu significado, introdução, tipos de agendadores do Hadoop, suas funções e também aprendemos sobre a importância desses agendadores do Hadoop. Quando se relaciona com o ecossistema e o ambiente de big data, os agendadores do Hadoop geralmente não são discutidos, mas têm o máximo significado e não podem ser deixados como estão. Espero que você tenha gostado do nosso artigo.

Artigos recomendados

Este é um guia para os Agendadores do Hadoop. Aqui discutimos a introdução e os quatro principais tipos de agendador do Hadoop com a importância de usá-lo. Você também pode consultar os seguintes artigos para saber mais:

  1. Componentes Swing em Java
  2. JTabbedPane em Java
  3. Palavra-chave protegida em Java
  4. JTextArea em Java

Categoria: