Data Warehouse vs Hadoop - 6 diferenças importantes a saber

Índice:

Anonim

Diferenças entre o Data Warehouse e o Hadoop

Em cada década, o setor de TI experimenta uma grande inovação que abala todo o setor de TI. Nos últimos anos, o Apache Hadoop fez o mesmo, infundindo data centers com nova infraestrutura

Ao dar o poder do processamento paralelo ao programador, o Hadoop está em um aumento tão exponencial na adoção e seu ecossistema está se expandindo em profundidade e amplitude, é natural perguntar se o Hadoop substituirá o Data Warehouse tradicional.

Vamos ver o que Alasdair Anderson (vice-presidente executivo da Nordea) disse em uma cúpula do Hadoop sobre esse assunto quente na cidade.

“Não há relacionamento entre a EDW e o Hadoop no momento - eles serão complementares. Não se trata de rip e substitui: não vamos nos livrar do RDBMS ou MPP, mas usar a ferramenta certa para o trabalho certo - e isso será muito determinado pelo preço. "

Sempre que essa discussão interessante começa, muitas perguntas vêm à nossa mente como:

1) Se você possui big data, precisa de um data warehouse?

2) O Hadoop substituirá o data warehouse?

3) Essa é a morte da era tradicional do Data Warehouse?

Para saber as respostas para todas essas perguntas, precisamos examinar o contexto maior dessa imagem.

1. O que é o Hadoop?

Quem não ouviu falar em Big Data ultimamente? Com centenas de terabytes de dados gerados todos os dias a partir de diferentes fontes, fica claro que o mundo moderno de hoje é um mundo de Big Data

Quando você começa a falar sobre Big Data, mais cedo ou mais tarde, começa a discutir o tópico mais quente do mundo do Big Data: Hadoop - mas o que exatamente é isso?

O Hadoop é uma estrutura de programação de código-fonte aberto, baseada em Java, que suporta o processamento e armazenamento de conjuntos de dados extremamente grandes em um ambiente de computação distribuído.

Os 4 módulos do Hadoop -

O Hadoop é composto por 4 módulos -

  1. Sistema de arquivos distribuídos

O sistema de arquivos distribuídos permite que os dados sejam armazenados em um formato facilmente acessível, em um grande número de dispositivos de armazenamento vinculados.

  1. Mapa Reduzir

Map Reduce é a combinação de duas operações - lendo os dados do banco de dados e colocando-os em um formato adequado para análise (mapa) e execução de operações matemáticas (redução).

  1. Hadoop Common

O Hadoop Common fornece as ferramentas necessárias para os dados armazenados no HDFS (Hadoop Distributed File System)

  1. FIO

O YARN gerencia os recursos dos sistemas que armazenam os dados e executam a análise.

2. O que é um Data Warehouse?

Um data warehouse é um banco de dados relacional projetado para dados de consulta e análise. Geralmente contém dados históricos derivados de diferentes fontes.

O ambiente do armazém de dados inclui soluções ETL, um mecanismo de processamento analítico online (OLAP), ferramentas de análise de clientes e outros aplicativos que gerenciam o processo de análise de dados e entrega aos usuários corporativos.

Vamos resumir o que é o data warehouse -

  1. Orientado ao assunto

Um armazém de dados pode ser usado para analisar uma área de assunto específica, como vendas, finanças e estoque. Cada área de assunto contém dados detalhados.

  1. Integrado

Um data warehouse integra dados de várias fontes de dados. Por exemplo, as datas estão no mesmo formato, os códigos masculino / feminino são consistentes. Em um data warehouse, haverá apenas uma maneira única de identificar um produto e eles usam o mesmo registro de cliente, não cópias

  1. Não volátil

Os dados são armazenados no armazém de dados sem modificação e não serão alterados. Portanto, dados históricos em um data warehouse nunca devem ser alterados.

  1. Tempo variável

é possível recuperar dados de 3 meses, 6 meses, 12 meses ou até dados mais antigos de um data warehouse.

  1. Não é virtual

O armazém de dados é um repositório físico persistente.

Data Warehouse vs Hadoop (Infográficos)

Abaixo estão as 6 principais comparações entre Data Warehouse e Hadoop

Data Warehouse vs Hadoop - Qual usar?

  • Se você possui dados limpos, consistentes e de alta qualidade, deve procurar o Data Warehouse porque o Hadoop não possui qualidade de dados em algumas de suas soluções.
  • Se você possui Dados Não Estruturados Não Processados, deve ir para o Hadoop porque o Hadoop funciona bem com dados não estruturados / não processados, mas o Data Warehouse funciona apenas com dados estruturados.
  • Para relatórios interativos e de baixa latência, você deve ir para o Data Warehouse
  • Para consultas OLTP / em tempo real / ponto, você deve ir para o Data Warehouse porque o Hadoop funciona bem com dados em lote.
  • Para conjuntos de dados de grande volume, você deve optar pelo Hadoop porque o Hadoop foi projetado para resolver problemas de Big Data.

Tabela de comparação direta entre Data Warehouse e Hadoop

Abaixo está a lista de pontos que descrevem as Comparações entre Data Warehouse e Hadoop

Base para comparaçãoArmazém de dadosHadoop
DadosNo Data Warehouse, analisamos dados estruturados e processadosNo Hadoop, podemos processar qualquer tipo de dados, incluindo estruturado / não estruturado / semiestruturado e bruto
Em processamentoSeu processamento é baseado em conceitos de esquema na gravaçãoSeu processamento é baseado em conceitos de esquema na leitura
ArmazenamentoAdequado para dados com pequeno volume e é muito caro para dados de grande volumeFunciona bem com grandes conjuntos de dados com enorme volume, velocidade e variedade
AgilidadeÉ menos ágil e de configuração fixaÉ altamente ágil, configure e reconfigure conforme necessário
SegurançaAs tecnologias de Data Warehouse existem há décadas. Assim, em termos de segurança, podemos contar com o Data WarehouseEmbora as tecnologias Hadoop sejam relativamente novas em comparação com o Data Warehouse, a segurança é uma grande preocupação aqui
ComercialProfissionais de negócios geralmente usam data warehouseO Hadoop é bastante famoso no campo da ciência de dados e engenharia de dados

Conclusão - Data Warehouse vs Hadoop

Agora que sabemos sobre o Data Warehouse e o Hadoop, vamos voltar e examinar a pergunta que fizemos no início deste artigo do Data Warehouse e Hadoop -

1) se você possui big data, precisa de um data warehouse?

Resposta - desde que sua organização precise de dados confiáveis, confiáveis ​​e acessíveis, você precisará de um data warehouse.

2) O Hadoop substituirá o data warehouse?

Resposta - Comparar o Data Warehouse vs Hadoop é como comparar maçãs e laranjas. O Data Warehouse e o Hadoop têm seus próprios benefícios em diferentes cenários de casos de uso. Em alguns casos, ainda dependemos das técnicas tradicionais de Data Warehouse, mas conforme o tempo muda, estamos mais focados no Hadoop Framework para lidar com problemas de Big Data.

3) Isso é uma morte da era tradicional do Data Warehouse?

Resposta - Como você pode ver, essa não é realmente uma pergunta simples e, portanto, não se presta bem a uma resposta simples. É verdade que o big data mudará a abordagem tradicional de data warehousing nos próximos anos, mas não obsoleta os conceitos e práticas do data warehousing.

Artigo recomendado

Este foi um guia útil para o Data Warehouse vs Hadoop. Aqui discutimos seu significado, comparação cara a cara, diferença de chave e conclusão. Você também pode consultar o seguinte artigo para saber mais -

  1. Hadoop vs Splunk - Descubra as 7 melhores diferenças
  2. Hadoop vs Elasticsearch - Qual é mais útil
  3. Big Data vs Data Warehouse - Descubra as melhores diferenças
  4. Business Intelligence vs Data Warehouse
  5. Nagios vs Splunk