Introdução aos comandos do HDFS
Big data é uma palavra para conjuntos de dados tão grandes ou compostos que o software aplicativo de processamento de dados convencional não é suficiente para fazer um pacto com eles. O Hadoop é uma estrutura de programação de código aberto baseada em Java que encadeia o espaço de processamento e armazenamento de conjuntos de dados enormemente volumosos em um ambiente de computação disseminado. A base de software Apache é a chave para instalar o Hadoop
Recursos do HDFS:
- O HDFS é executado na arquitetura Master / slave
- Os arquivos são usados pelo HDFS para armazenar os dados relacionados ao usuário.
- possui um grande conjunto de diretórios e arquivos armazenados em um formato hierárquico.
- Por dentro, um arquivo é dividido em blocos menores e esses blocos são armazenados em um conjunto de Datanodes.
- Namenode e Datanode são a parte do software destinada a ser executada em máquinas de produtos que são executadas classicamente no sistema operacional GNU / Linux.
Namenode:
- Aqui o sistema de arquivos é mantido pelo nome do nó
- O Namenode também é responsável por registrar todas as alterações do sistema de arquivos, além disso, mantém uma imagem do espaço para nome completo do sistema de arquivos e do Mapa de Blocos do arquivo na memória
- O ponto de verificação é feito periodicamente. portanto, é fácil recuperar-se para o estágio antes que o ponto de falha possa ser alcançado aqui.
Datanode:
- Um Datanode fornece dados em arquivos em seu sistema de arquivos local
- Para ter uma ideia de sua existência, o nó de dados envia a pulsação para o nó de nome
- Um relatório de bloco será gerado para cada 10 batimentos cardíacos recebidos
- A replicação está implícita nos dados armazenados nesses nós de dados
Replicação de dados:
- Aqui, a sequência de blocos forma um arquivo com um tamanho de bloco padrão de 128 MB
- Todos os blocos no arquivo, além da final, são de tamanho semelhante.
- De todos os nós de dados no cluster, o elemento namenode recebe uma pulsação
- BlockReport contém todos os blocos em um Datanode.
- possui um grande conjunto de diretórios e arquivos armazenados em um formato hierárquico.
- Por dentro, um arquivo é dividido em blocos menores e esses blocos são armazenados em um conjunto de Datanodes.
- Namenode e Datanode são a parte do software destinada a ser executada em máquinas de produtos que são executadas classicamente no sistema operacional GNU / Linux.
Rastreador de tarefas : Debate do JobTracker no NameNode para concluir a posição dos dados. Além disso, localize os melhores nós do TaskTracker para executar tarefas com base na localidade dos dados
Rastreador de tarefas: Um TaskTracker é um nó no cluster que aceita tarefas - operações de mapeamento, redução e reprodução aleatória - de um JobTracker.
Nó nome secundário (ou) nó do ponto de verificação: Obtém o EditLog do nó nome em intervalos regulares e se aplica à sua imagem FS. E copia de volta uma imagem FS concluída para o nó de nome durante sua reinicialização. O objetivo do nó Nome Secundário é ter um ponto de verificação no HDFS.
FIO:
- O YARN possui um componente central de gerenciamento de recursos que gerencia recursos e atribui os recursos a cada aplicativo.
- Aqui, o Gerenciador de Recursos é o mestre que julga os recursos associados ao cluster, o gerenciador de recursos é enrolado em dois componentes, o gerenciador de aplicativos e um planejador que esses dois componentes gerenciam juntos os trabalhos nos sistemas de cluster. outro componente chama o Node Manager (NM), responsável por gerenciar os trabalhos e o fluxo de trabalho dos usuários em um determinado nó.
- Uma replicação exata dos dados no nó de nome ativo é mantida pelo StandNomeNome. Ele atua como escravo, mantém estado suficiente para fornecer um failover rápido, se essencial.
Comandos básicos do HDFS:
Comandos básicos do HDFS |
||
Sr. Não | Propriedade de comando do HDFS | Comando HDFS |
1 1 | Imprimir versão hadoop | Versão $ hadoop |
2 | Listar o conteúdo do diretório raiz no HDFS | $ hadoop fs -ls |
3 | Relate a quantidade de espaço usado e disponível em um sistema de arquivos atualmente montado | $ hadoop fs -df hdfs: / |
4 | O balanceador HDFS reequilibra dados entre os DataNodes, movendo blocos de nós superutilizados para subutilizados. | $ hadoop balancer |
5 | Comando de ajuda | $ hadoop fs -help |
Comandos intermediários do HDFS:
Comandos intermediários do HDFS |
||
Sr. Não | Propriedade de comando do HDFS | Comando HDFS |
6 | cria um diretório no local especificado do HDFS | $ hadoop fs -mkdir / usuário / cloudera / |
7 | Copia dados de um local para outro | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Veja o espaço ocupado por um diretório específico no HDFS | $ hadoop fs -du -s -h / usuário / cloudera / |
9 | Remova um diretório no Hadoop | $ hadoop fs -rm -r / usuário / cloudera / pigjobs / |
10 | Remove todos os arquivos no diretório especificado | $ hadoop fs -rm -skipTrash hadoop / varejo / * |
11 | Para esvaziar o lixo | $ hadoop fs -expunge |
12 | copia dados de e para local para HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / usuário / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Comandos HDFS avançados:
Comandos intermediários do HDFS |
||
Sr. Não | Propriedade de comando do HDFS | Comando HDFS |
13 | alterar permissões de arquivo | $ sudo -u hdfs hadoop fs -chmod 777 / usuário / cloudera / flume / |
14 | definir fator de replicação de dados para um arquivo | $ hadoop fs -setrep -w 5 / usuário / cloudera / pigjobs / |
15 | Conte o número de diretórios, arquivos e bytes em hdfs | $ hadoop fs -count hdfs: / |
16 | faça o namenode existir no modo seguro | $ sudo -u hdfs hdfs dfsadmin -safemode leave |
17 | Hadoop formata um namenode | $ hadoop namenode -format |
Dicas e truques do HDFS:
1) Podemos obter uma recuperação mais rápida quando a contagem de nós do cluster é maior.
2) O aumento do armazenamento por unidade de tempo aumenta o tempo de recuperação.
3) O hardware Namenode deve ser muito confiável.
4) O monitoramento sofisticado pode ser alcançado através de ambari.
5) A inanição do sistema pode ser diminuída aumentando a contagem de redutores.
Artigos recomendados
Este foi um guia para os comandos do HDFS. Aqui discutimos comandos, recursos do HDFS, seus comandos básicos, intermediários e avançados com representação pictórica, dicas e truques sobre os comandos. Você também pode consultar nossos outros artigos sugeridos para saber mais -
- Comandos de nó
- Comandos do Matlab
- Vantagens do DBMS
- Ecossistema Hadoop
- Comandos do Hadoop fs