Como instalar o Hive?

O Apache Hadoop é uma coleção da estrutura que permite o processamento de big data distribuído pelo cluster. De acordo com o Apache Hive, é um projeto de software de data warehouse construído sobre o Apache Hadoop para fornecer consulta e análise de dados. O Apache hive fornece uma interface semelhante ao SQL para consultar e processar uma grande quantidade de dados chamada HQL (Hive query language). A seção do Apache é executada sobre o ecossistema do Hadoop e os dados armazenados na forma de arquivo significam o HDFS (sistema de arquivos distribuídos do Hadoop). O Apache Hive fornece uma ótima interface para o usuário acessar e executar uma operação nos dados na forma de uma tabela; fornece uma ótima técnica de otimização para melhorar o desempenho. É muito desafiador acelerar a consulta com big data e, acredite, isso é importante em um ambiente de produção.

No back-end, o compilador converte a consulta HQL em tarefas de redução de mapa e depois é submetida à estrutura do Hadoop para execuções.

Diferença entre Hive e SQL

O Apache Hive é muito parecido com o SQL, mas como sabemos, o hive é executado no ecossistema do Hadoop e converte internamente tarefas em MR (tarefas de Map Reduce) e faz alguma diferença entre o Hive e o SQL.

O Hive não seria a melhor abordagem para aplicativos em que é necessária uma resposta muito rápida e é muito importante entender que o Hive é mais adequado para o processamento em lote de conjuntos muito grandes de dados imutáveis, e devemos observar que o Hive é um RDBMS regular e, por fim, mas não menos importante, o apache hive é um esquema nos meios de leitura (ao inserir dados na tabela do hive, ele não se preocupa com a incompatibilidade de tipos de dados, mas ao ler dados, ele mostrará valor nulo se o tipo de dados não corresponder ao tipo de dados da coluna específica).

Requisito anterior para instalar o Hive

Como eu disse anteriormente, é muito importante entender que o Apache Hive é executado em cima do Hadoop Ecosystem e o Hadoop deve estar funcionando com todos os demônios.

Alguns dos demônios básicos do Hadoop são os seguintes:

  • Nó de nome
  • Nó de dados
  • Gerente de Recursos
  • Gerenciador de nós

Para verificar a versão do Hadoop abaixo, está o comando:

Digite → Versão do Hadoop no prompt de comando; ele fornecerá a versão do Hadoop.

Para verificar o comando do relatório do cluster Hadoop abaixo:

Digite → Hadoop dfsadmin –report no prompt de comando, ele fornecerá o relatório inteiro do cluster se o servidor estiver em execução.

Se o Hadoop não estiver instalado na sua máquina solicitando que você siga as instruções apache para instalar o Hadoop no seu sistema.

Espero que o java já tenha sido instalado no seu sistema também. para verificar a versão java, consulte a captura de tela abaixo.

Etapas para instalar o Hive no Ubuntu

Abaixo estão as etapas para instalar o Hive no Ubuntu:

Passo 1 : Hive tar, podemos baixar usando o comando abaixo no terminal, também podemos baixar diretamente do terminal.

Comando: obtemos http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Etapa 2 : Extraia o arquivo tar usando o comando abaixo no terminal, podemos extrair o tar acima do arquivo tar hive tar baixado diretamente.

Comando: tar -xzf apache-hive-2.1.0-bin.tar.gz

Sugerirei que você verifique com o comando ls sobre o arquivo de seção extraído.

Etapa 3: Edite o arquivo " .bashrc " para atualizar as variáveis ​​de ambiente para o usuário.

Comando: sudo the .bashrc

Adicione o seguinte no final do arquivo:

# Definir HIVE_HOME

Execute o comando abaixo para concluir o trabalho de alterações no terminal atual.

Comando: source .bashrc

Etapa 5 : Precisamos criar diretórios do Hive no local do HDFS e este diretório 'warehouse' será o local para armazenar as informações relacionadas aos metadados da tabela do hive e os dados relacionados ao Hive.

Comando :

  • hdfs dfs -mkdir -p / usuário / seção / armazém
  • hdfs dfs -mkdir / tmp

Etapa 6 : Para definir a permissão de leitura e gravação para a tabela de seção, execute o comando abaixo.

Comando:

No comando abaixo, fornecendo permissão de gravação para o grupo de usuários:

  • hdfs dfs -chmod g + com usuário / seção / armazém
  • hdfs dfs -chmod g + w / tmp

Configurando o Hive: É muito importante apontar o hive de instalação para configurar com o Hadoop. Precisamos editar o hive-env.sh, um arquivo que é colocado no diretório $ HIVE_HOME / conf. Os seguintes comandos redirecionam para a pasta conf Hive e copiam o arquivo de modelo:

Etapa 7 : Defina um caminho do Hadoop no hive-env.sh

Edite o arquivo hive-env.sh anexando a seguinte linha:

Agora, por esse processo, estamos quase terminando e as instalações do hive foram concluídas com êxito. É importante configurar o Metastore com o servidor de banco de dados externo e, por padrão, a estrutura do Apache Hive usa o banco de dados Derby. Usando o comando abaixo Inicializando o Banco de Dados Derby.

Comando: bin / schematool -initSchema -dbType derby

Etapa 8 : Inicie o Hive .

Comando: seção (digite a seção no terminal dentro do segundo terminal da seção será aberta.)

Trabalhando com o Hive: Agora, veremos algumas das operações no hive para ver quantas tabelas temos no uso padrão do banco de dados. Consulte as capturas de tela abaixo nas capturas de tela abaixo. Não está mostrando nenhuma tabela, significa que não temos nenhuma tabela no banco de dados padrão. .

Para criar uma tabela na seção, é muito importante consultar o banco de dados necessário, caso contrário, qualquer tabela será criada no banco de dados padrão.

Comandos importantes no Hive

1: mostrar bancos de dados (mostrará todos os bancos de dados que foram criados até o momento).

2: crie o banco de dados se não existir mydb (este comando criará um banco de dados com o nome ' mydb' se ' mydb' não existir e se ' mydb já existir, não haverá nenhum erro')

3: use database sempre que tivermos que usar algum comando DDl no banco de dados específico, devemos usar o comando "use database". No nosso caso, já criamos "mydb", o comando show seria usado mydb.

Comando DDL importante do Hive

CRIAR, DEIXAR, TRUNCAR, MOSTRAR, DESCREVER .

  • Criar : - Crie uma instrução usada para criar um banco de dados ou criar uma tabela no hive.

Exemplo: seção> criar banco de dados Empresa; (criação de banco de dados)

Hive> use Empresa;

Hive> criar tabela empregado (id int, nome String, salário String); (isso criará a tabela employee sob o banco de dados Company, porque já executamos o comando Usar banco de dados.)

  • Descrever fornece informações sobre o esquema da tabela.

Hive> descreva funcionário; (isso fornecerá os detalhes do esquema da tabela de funcionários em detalhes)

  • TRUNCATE excluirá os dados da tabela.

Hive> truncar funcionário da tabela;

Também podemos instalar o Hive em uma janela, mas, como prática recomendada, prefiro o Ubuntu, ele dará uma melhor visão do ambiente de produção e seus dados aumentarão no futuro, e será fácil de gerenciar.

Artigos recomendados

Este foi um guia para instalar o Hive. Aqui discutimos as diferentes etapas para instalar o Hive, o comando DDL etc. Você também pode consultar os seguintes artigos para saber mais:

  1. Como instalar o SQL Server
  2. Como instalar o MATLAB
  3. Comandos e recursos do Hive
  4. Perguntas básicas da entrevista do Hive
  5. Arquitetura Hive | WorkFlow
  6. Usando a função ORDER BY no Hive
  7. Instalação do Hive

Categoria: