Comando HDFS - Comando básico a avançado com dicas e truques

Introdução aos comandos do HDFS

Big data é uma palavra para conjuntos de dados tão grandes ou compostos que o software aplicativo de processamento de dados convencional não é suficiente para fazer um pacto com eles. O Hadoop é uma estrutura de programação de código aberto baseada em Java que encadeia o espaço de processamento e armazenamento de conjuntos de dados enormemente volumosos em um ambiente de computação disseminado. A base de software Apache é a chave para instalar o Hadoop

Recursos do HDFS:

O HDFS é executado na arquitetura Master / slave
Os arquivos são usados pelo HDFS para armazenar os dados relacionados ao usuário.
possui um grande conjunto de diretórios e arquivos armazenados em um formato hierárquico.
Por dentro, um arquivo é dividido em blocos menores e esses blocos são armazenados em um conjunto de Datanodes.
Namenode e Datanode são a parte do software destinada a ser executada em máquinas de produtos que são executadas classicamente no sistema operacional GNU / Linux.

Namenode:

Aqui o sistema de arquivos é mantido pelo nome do nó
O Namenode também é responsável por registrar todas as alterações do sistema de arquivos, além disso, mantém uma imagem do espaço para nome completo do sistema de arquivos e do Mapa de Blocos do arquivo na memória
O ponto de verificação é feito periodicamente. portanto, é fácil recuperar-se para o estágio antes que o ponto de falha possa ser alcançado aqui.

Datanode:

Um Datanode fornece dados em arquivos em seu sistema de arquivos local
Para ter uma ideia de sua existência, o nó de dados envia a pulsação para o nó de nome
Um relatório de bloco será gerado para cada 10 batimentos cardíacos recebidos
A replicação está implícita nos dados armazenados nesses nós de dados

Replicação de dados:

Aqui, a sequência de blocos forma um arquivo com um tamanho de bloco padrão de 128 MB
Todos os blocos no arquivo, além da final, são de tamanho semelhante.
De todos os nós de dados no cluster, o elemento namenode recebe uma pulsação
BlockReport contém todos os blocos em um Datanode.
possui um grande conjunto de diretórios e arquivos armazenados em um formato hierárquico.
Por dentro, um arquivo é dividido em blocos menores e esses blocos são armazenados em um conjunto de Datanodes.
Namenode e Datanode são a parte do software destinada a ser executada em máquinas de produtos que são executadas classicamente no sistema operacional GNU / Linux.

Rastreador de tarefas : Debate do JobTracker no NameNode para concluir a posição dos dados. Além disso, localize os melhores nós do TaskTracker para executar tarefas com base na localidade dos dados

Rastreador de tarefas: Um TaskTracker é um nó no cluster que aceita tarefas - operações de mapeamento, redução e reprodução aleatória - de um JobTracker.

Nó nome secundário (ou) nó do ponto de verificação: Obtém o EditLog do nó nome em intervalos regulares e se aplica à sua imagem FS. E copia de volta uma imagem FS concluída para o nó de nome durante sua reinicialização. O objetivo do nó Nome Secundário é ter um ponto de verificação no HDFS.

FIO:

O YARN possui um componente central de gerenciamento de recursos que gerencia recursos e atribui os recursos a cada aplicativo.
Aqui, o Gerenciador de Recursos é o mestre que julga os recursos associados ao cluster, o gerenciador de recursos é enrolado em dois componentes, o gerenciador de aplicativos e um planejador que esses dois componentes gerenciam juntos os trabalhos nos sistemas de cluster. outro componente chama o Node Manager (NM), responsável por gerenciar os trabalhos e o fluxo de trabalho dos usuários em um determinado nó.
Uma replicação exata dos dados no nó de nome ativo é mantida pelo StandNomeNome. Ele atua como escravo, mantém estado suficiente para fornecer um failover rápido, se essencial.

Comandos básicos do HDFS:

Comandos básicos do HDFS
Sr. Não	Propriedade de comando do HDFS	Comando HDFS
1 1	Imprimir versão hadoop	Versão $ hadoop
2	Listar o conteúdo do diretório raiz no HDFS	$ hadoop fs -ls
3	Relate a quantidade de espaço usado e disponível em um sistema de arquivos atualmente montado	$ hadoop fs -df hdfs: /
4	O balanceador HDFS reequilibra dados entre os DataNodes, movendo blocos de nós superutilizados para subutilizados.	$ hadoop balancer
5	Comando de ajuda	$ hadoop fs -help

Comandos intermediários do HDFS:

Comandos intermediários do HDFS
Sr. Não	Propriedade de comando do HDFS	Comando HDFS
6	cria um diretório no local especificado do HDFS	$ hadoop fs -mkdir / usuário / cloudera /
7	Copia dados de um local para outro	$ hadoop fs -put data / sample.txt / user / training / hadoop
8	Veja o espaço ocupado por um diretório específico no HDFS	$ hadoop fs -du -s -h / usuário / cloudera /
9	Remova um diretório no Hadoop	$ hadoop fs -rm -r / usuário / cloudera / pigjobs /
10	Remove todos os arquivos no diretório especificado	$ hadoop fs -rm -skipTrash hadoop / varejo / *
11	Para esvaziar o lixo	$ hadoop fs -expunge
12	copia dados de e para local para HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / usuário / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Comandos HDFS avançados:

Comandos intermediários do HDFS
Sr. Não	Propriedade de comando do HDFS	Comando HDFS
13	alterar permissões de arquivo	$ sudo -u hdfs hadoop fs -chmod 777 / usuário / cloudera / flume /
14	definir fator de replicação de dados para um arquivo	$ hadoop fs -setrep -w 5 / usuário / cloudera / pigjobs /
15	Conte o número de diretórios, arquivos e bytes em hdfs	$ hadoop fs -count hdfs: /
16	faça o namenode existir no modo seguro	$ sudo -u hdfs hdfs dfsadmin -safemode leave
17	Hadoop formata um namenode	$ hadoop namenode -format

Dicas e truques do HDFS:

1) Podemos obter uma recuperação mais rápida quando a contagem de nós do cluster é maior.

2) O aumento do armazenamento por unidade de tempo aumenta o tempo de recuperação.

3) O hardware Namenode deve ser muito confiável.

4) O monitoramento sofisticado pode ser alcançado através de ambari.

5) A inanição do sistema pode ser diminuída aumentando a contagem de redutores.

Artigos recomendados

Este foi um guia para os comandos do HDFS. Aqui discutimos comandos, recursos do HDFS, seus comandos básicos, intermediários e avançados com representação pictórica, dicas e truques sobre os comandos. Você também pode consultar nossos outros artigos sugeridos para saber mais -

Comandos de nó
Comandos do Matlab
Vantagens do DBMS
Ecossistema Hadoop
Comandos do Hadoop fs

Comando HDFS - Comando básico a avançado com dicas e truques

Índice:

Introdução aos comandos do HDFS

Recursos do HDFS:

Namenode:

Datanode:

Replicação de dados:

FIO:

Comandos básicos do HDFS:

Comandos intermediários do HDFS:

Comandos HDFS avançados:

Dicas e truques do HDFS:

Artigos recomendados

Dicas mais importantes para se tornar administrador certificado do Salesforce

Desafios do Big Data Analytics - Soluções de Big Data Analytics

Alteração na fórmula líquida de capital de giro - Calculadora (modelo do Excel)

As 10 principais coisas úteis a considerar ao mudar de emprego

Capítulo 11 vs. capítulo 13 do código de falências - 6 principais diferenças

Criar texto 3D simples no Photoshop

Coloque uma imagem no texto com o Photoshop

Usando efeitos e estilos de camada no Photoshop CC 2020 - Guia completo

Como redimensionar imagens para impressão com o Photoshop

Efeito de texto banhado a ouro no Photoshop

Como baixar fotos da sua câmera digital com o Adobe Bridge CS5

Foto dentro de um efeito de foto com o Photoshop CS6

Digite um caminho no Photoshop

Painel básico de camadas do Photoshop CS5

Ações do Photoshop - salvando e carregando ações