Como instalar o Apache

Antes de digitar como instalar a parte do Apache, primeiro teríamos uma visão geral do Apache e como ele é usado na ciência de dados.

O que é o Apache?

O Apache Web Server é um servidor HTTP que apresenta sites para visitantes que chegam ao seu servidor. Portanto, se você deseja implantar um site para uma empresa ou organização, provavelmente usará o Apache para isso.

Existem outros servidores HTTP por aí, como o IIS, mas o Apache é o padrão usado pela maioria das pessoas, seja no Linux, Windows ou Mac. O Apache é o padrão que a maioria das pessoas acessa porque é bem conhecido, é muito confiável e é gratuito.

No entanto, uma coisa a ser percebida com o Apache é que, como é um servidor HTTP, se você instalá-lo no Linux ou Windows ou Mac, tudo o que você pode fazer é apresentar sites estáticos aos visitantes que chegam ao seu servidor. Portanto, se você codificar um site em HTML sem outras linguagens de programação além do JavaScript, poderá usá-lo com apenas um servidor Apache. Você pode conectar todas as suas tags ao servidor Apache e apresentá-las aos seus visitantes.

Como o Apache usou na Data Science?

A ciência de dados é o campo de estudo mais procurado no mundo moderno. O Data Scientist é considerado o trabalho mais sexy do século 21, com profissionais de várias disciplinas que desejam aprender e se tornar um Data Scientist. O Apache desempenha um papel crucial em qualquer entusiasta da ciência de dados, pois eles precisam de conhecimento suficiente do ecossistema Apache Hadoop.

Ecossistema Apache Hadoop

A primeira coisa é que o ecossistema Hadoop não é uma ferramenta. Não é uma linguagem de programação ou uma estrutura única. É um grupo de ferramentas que são usadas juntas por várias empresas em domínios diferentes para várias tarefas. Analisaremos cada ferramenta uma a uma abaixo: -

  • O Apache HDFS (Sistema de Arquivos Distribuídos Hadoop) é a unidade de armazenamento do Hadoop que pode armazenar dados estruturados, semiestruturados e não estruturados. O HDFS possui metadados que mantêm o arquivo de log sobre os dados armazenados. Possui dois componentes - NameNode e DataNode.
  • O Apache Yarn é o negociador de recursos que executa todas as atividades de processamento, como agendamento de tarefas, alocação de recursos etc. Ele possui dois serviços - Primeiro é o Gerenciador de Recursos que agenda os aplicativos em execução no Yarn. O segundo é o gerenciador de nós, que monitora a utilização de recursos .
  • O Apache Map Reduce é o componente de processamento de dados do Hadoop que processa grandes conjuntos de dados usando computação distribuída e paralela com base nas funções Map, Sort and Shuffle e Reduce. A função de mapa filtra os dados e, em seguida, a classificação e a reprodução aleatória são feitas. No final, a função Reduzir agrega e resume o resultado.
  • O Apache Pig é usado principalmente em ETL. Ele tem duas partes - Pig Latin e o tempo de execução do Pig. O Pig Latin é o idioma usado para o processamento de dados usando uma consulta, enquanto o Pig runtime é o ambiente de execução. Uma linha do Pig Latin é quase igual a 100 linhas do código Map Reduce. O processo envolve primeiro carregar os dados e, em seguida, agrupar, classificar, filtrar e armazená-los no HDFS.
  • O Apache Hive usa uma consulta semelhante ao SQL para analisar dados em um ambiente distribuído. Ele possui dois componentes - a Linha de Comando do Hive e o servidor JDBC / ODBC e a linguagem usada é chamada HiveQL.
  • O Apache Mahout é a biblioteca de aprendizado de máquina escrita em Java e usada para criar aplicativos de aprendizado de máquina, como cluster, classificação ou regressão. Possui algoritmos diferentes embutidos para diferentes casos de uso.
  • O Apache HBase é um banco de dados NoSQL escrito em Java que roda sobre o Hadoop. Ele foi desenvolvido com base no BigTable do Google e é capaz de lidar com todos os tipos de dados.
  • O Apache Sqoop é uma ferramenta de ingestão de dados usada para transferência de dados estruturados em massa entre RDBMS e Hadoop.
  • O Apache Flume é outra ferramenta de ingestão de dados usada para transferência de dados semiestruturada e não estruturada entre o Hadoop e outras fontes de dados.
  • O ZooKeeper é o coordenador que garante a coordenação entre várias ferramentas no ecossistema Hadoop.
  • O Apache Ambari é um gerente de cluster que provisiona, gerencia clusters do Hadoop e também monitora sua saúde e status.
  • O Apache Tez é uma nova ferramenta no ecossistema do Hadoop que acelera o processamento de consultas do Hadoop.
  • O Apache Presto é um mecanismo de consulta SQL distribuído de código aberto que permite a capacidade de consulta em várias plataformas.
  • O Apache HCatalog é um sistema de gerenciamento de metadados e tabelas do Hadoop que permite a interoperabilidade entre as ferramentas de processamento de dados. Também ajuda os usuários a escolher as melhores ferramentas para seus ambientes.
  • O Apache Spark é a estrutura mais usada e popular entre os cientistas de dados. É um sistema de computação em cluster de alta velocidade que otimiza a utilização de recursos no caso de muitas tarefas iterativas. Ele oferece flexibilidade para processamento em lote e análise de dados em tempo real.

Abaixo estão as etapas para instalar o Apache

Até agora, aprendemos sobre o Apache e como ele é útil para quem deseja aprender Data Science ou Big Data Analytics. Agora, vamos nos aprofundar e instalar o apache no Windows, com base nas etapas abaixo.

  • Vá para https://httpd.apache.org/ e clique no link Download na seção Apache httpd 2.4.38 Lançado.

  • Você será levado à página seguinte e, em seguida, clique em Arquivos para Microsoft Windows.

  • Clique no Apache Lounge.

  • Você pode baixar 32 ou 64 bits do arquivo zip com base no sistema operacional Windows. Vamos baixar a versão de 64 bits aqui. Clique no link .zip correspondente para fazer o download.

  • Agora, ele requer o C ++ Redistributable Visual Studio 2017. Portanto, faremos o download no link correspondente de 32 ou 64 bits.

  • Após o download dos dois arquivos, iremos para o local baixado e instalaremos o C ++ Redistributable Visual Studio 2017 primeiro. Clique duas vezes no arquivo .exe.

  • Marque 'Concordo' e clique em Instalar.

  • A instalação do Apache está em andamento.

  • Uma vez concluído, você receberá uma mensagem como esta. Clique em Fechar para finalizar a instalação.

  • Agora, vá para a pasta em que você baixou o arquivo zip do Apache. Clique com o botão direito do mouse e selecione extrair aqui.

  • Agora, teremos uma pasta Apache24 criada. Copie esta pasta para a unidade C e, em seguida, adicionaremos um caminho para as variáveis ​​de ambiente do sistema.

Vá para Propriedades do sistema -> guia Avançado -> Clique no botão Variáveis ​​de ambiente abaixo.

  • Em Variáveis, localize Caminho e clique em Editar.

  • Clique em Procurar -> Vá para a pasta Apache24 da unidade C -> Selecionar pasta bin -> Clique em OK.

  • Instalaremos o Apache como um serviço do Windows. Execute o prompt de comando como administrador. Digite httpd –k install e pressione enter.

  • Vamos verificar o serviço de instalação do Apache. Clique no ícone do Windows e digite serviços. Clique no aplicativo Serviços e encontre um serviço com o nome Apache24.

  • Para iniciar o servidor Apache, clique com o botão direito do mouse e clique em Iniciar. O status mudará para 'Em execução'.

  • Podemos testar com um navegador. Abra um navegador e navegue até http: // localhost e pressione enter. Uma mensagem informando 'Funciona!' irá aparecer para confirmar a instalação bem-sucedida do Apache.

Artigos recomendados

Este foi um guia sobre como instalar o Apache. Aqui discutimos as instruções e as diferentes etapas para instalar o Apache. Você também pode consultar o seguinte artigo para saber mais -

  1. Perguntas da entrevista do Apache
  2. Apache Spark vs Apache Flink
  3. Apache Hadoop vs Apache Spark
  4. Apache Kafka vs Flume
  5. Kafka vs Kinesis | Principais diferenças

Categoria: