Comando HDFS - Comando básico a avançado com dicas e truques

Índice:

Anonim

Introdução aos comandos do HDFS

Big data é uma palavra para conjuntos de dados tão grandes ou compostos que o software aplicativo de processamento de dados convencional não é suficiente para fazer um pacto com eles. O Hadoop é uma estrutura de programação de código aberto baseada em Java que encadeia o espaço de processamento e armazenamento de conjuntos de dados enormemente volumosos em um ambiente de computação disseminado. A base de software Apache é a chave para instalar o Hadoop

Recursos do HDFS:

  • O HDFS é executado na arquitetura Master / slave
  • Os arquivos são usados ​​pelo HDFS para armazenar os dados relacionados ao usuário.
  • possui um grande conjunto de diretórios e arquivos armazenados em um formato hierárquico.
  • Por dentro, um arquivo é dividido em blocos menores e esses blocos são armazenados em um conjunto de Datanodes.
  • Namenode e Datanode são a parte do software destinada a ser executada em máquinas de produtos que são executadas classicamente no sistema operacional GNU / Linux.

Namenode:

  • Aqui o sistema de arquivos é mantido pelo nome do nó
  • O Namenode também é responsável por registrar todas as alterações do sistema de arquivos, além disso, mantém uma imagem do espaço para nome completo do sistema de arquivos e do Mapa de Blocos do arquivo na memória
  • O ponto de verificação é feito periodicamente. portanto, é fácil recuperar-se para o estágio antes que o ponto de falha possa ser alcançado aqui.

Datanode:

  • Um Datanode fornece dados em arquivos em seu sistema de arquivos local
  • Para ter uma ideia de sua existência, o nó de dados envia a pulsação para o nó de nome
  • Um relatório de bloco será gerado para cada 10 batimentos cardíacos recebidos
  • A replicação está implícita nos dados armazenados nesses nós de dados

Replicação de dados:

  • Aqui, a sequência de blocos forma um arquivo com um tamanho de bloco padrão de 128 MB
  • Todos os blocos no arquivo, além da final, são de tamanho semelhante.
  • De todos os nós de dados no cluster, o elemento namenode recebe uma pulsação
  • BlockReport contém todos os blocos em um Datanode.
  • possui um grande conjunto de diretórios e arquivos armazenados em um formato hierárquico.
  • Por dentro, um arquivo é dividido em blocos menores e esses blocos são armazenados em um conjunto de Datanodes.
  • Namenode e Datanode são a parte do software destinada a ser executada em máquinas de produtos que são executadas classicamente no sistema operacional GNU / Linux.

Rastreador de tarefas : Debate do JobTracker no NameNode para concluir a posição dos dados. Além disso, localize os melhores nós do TaskTracker para executar tarefas com base na localidade dos dados

Rastreador de tarefas: Um TaskTracker é um nó no cluster que aceita tarefas - operações de mapeamento, redução e reprodução aleatória - de um JobTracker.

Nó nome secundário (ou) nó do ponto de verificação: Obtém o EditLog do nó nome em intervalos regulares e se aplica à sua imagem FS. E copia de volta uma imagem FS concluída para o nó de nome durante sua reinicialização. O objetivo do nó Nome Secundário é ter um ponto de verificação no HDFS.

FIO:

  • O YARN possui um componente central de gerenciamento de recursos que gerencia recursos e atribui os recursos a cada aplicativo.
  • Aqui, o Gerenciador de Recursos é o mestre que julga os recursos associados ao cluster, o gerenciador de recursos é enrolado em dois componentes, o gerenciador de aplicativos e um planejador que esses dois componentes gerenciam juntos os trabalhos nos sistemas de cluster. outro componente chama o Node Manager (NM), responsável por gerenciar os trabalhos e o fluxo de trabalho dos usuários em um determinado nó.
  • Uma replicação exata dos dados no nó de nome ativo é mantida pelo StandNomeNome. Ele atua como escravo, mantém estado suficiente para fornecer um failover rápido, se essencial.

Comandos básicos do HDFS:

Comandos básicos do HDFS

Sr. NãoPropriedade de comando do HDFSComando HDFS
1 1Imprimir versão hadoopVersão $ hadoop
2Listar o conteúdo do diretório raiz no HDFS$ hadoop fs -ls
3Relate a quantidade de espaço usado e disponível em um sistema de arquivos atualmente montado$ hadoop fs -df hdfs: /
4O balanceador HDFS reequilibra dados entre os DataNodes, movendo blocos de nós superutilizados para subutilizados.$ hadoop balancer
5Comando de ajuda$ hadoop fs -help

Comandos intermediários do HDFS:

Comandos intermediários do HDFS

Sr. NãoPropriedade de comando do HDFSComando HDFS
6cria um diretório no local especificado do HDFS$ hadoop fs -mkdir / usuário / cloudera /
7Copia dados de um local para outro$ hadoop fs -put data / sample.txt / user / training / hadoop
8Veja o espaço ocupado por um diretório específico no HDFS$ hadoop fs -du -s -h / usuário / cloudera /
9Remova um diretório no Hadoop$ hadoop fs -rm -r / usuário / cloudera / pigjobs /
10Remove todos os arquivos no diretório especificado$ hadoop fs -rm -skipTrash hadoop / varejo / *
11Para esvaziar o lixo$ hadoop fs -expunge
12copia dados de e para local para HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / usuário / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Comandos HDFS avançados:

Comandos intermediários do HDFS

Sr. NãoPropriedade de comando do HDFSComando HDFS
13alterar permissões de arquivo$ sudo -u hdfs hadoop fs -chmod 777 / usuário / cloudera / flume /
14definir fator de replicação de dados para um arquivo$ hadoop fs -setrep -w 5 / usuário / cloudera / pigjobs /
15Conte o número de diretórios, arquivos e bytes em hdfs$ hadoop fs -count hdfs: /
16faça o namenode existir no modo seguro$ sudo -u hdfs hdfs dfsadmin -safemode leave
17Hadoop formata um namenode$ hadoop namenode -format

Dicas e truques do HDFS:

1) Podemos obter uma recuperação mais rápida quando a contagem de nós do cluster é maior.

2) O aumento do armazenamento por unidade de tempo aumenta o tempo de recuperação.

3) O hardware Namenode deve ser muito confiável.

4) O monitoramento sofisticado pode ser alcançado através de ambari.

5) A inanição do sistema pode ser diminuída aumentando a contagem de redutores.

Artigos recomendados

Este foi um guia para os comandos do HDFS. Aqui discutimos comandos, recursos do HDFS, seus comandos básicos, intermediários e avançados com representação pictórica, dicas e truques sobre os comandos. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Comandos de nó
  2. Comandos do Matlab
  3. Vantagens do DBMS
  4. Ecossistema Hadoop
  5. Comandos do Hadoop fs