Diferenças entre o Data Warehouse e o Hadoop
Em cada década, o setor de TI experimenta uma grande inovação que abala todo o setor de TI. Nos últimos anos, o Apache Hadoop fez o mesmo, infundindo data centers com nova infraestrutura
Ao dar o poder do processamento paralelo ao programador, o Hadoop está em um aumento tão exponencial na adoção e seu ecossistema está se expandindo em profundidade e amplitude, é natural perguntar se o Hadoop substituirá o Data Warehouse tradicional.
Vamos ver o que Alasdair Anderson (vice-presidente executivo da Nordea) disse em uma cúpula do Hadoop sobre esse assunto quente na cidade.
“Não há relacionamento entre a EDW e o Hadoop no momento - eles serão complementares. Não se trata de rip e substitui: não vamos nos livrar do RDBMS ou MPP, mas usar a ferramenta certa para o trabalho certo - e isso será muito determinado pelo preço. "
Sempre que essa discussão interessante começa, muitas perguntas vêm à nossa mente como:
1) Se você possui big data, precisa de um data warehouse?
2) O Hadoop substituirá o data warehouse?
3) Essa é a morte da era tradicional do Data Warehouse?
Para saber as respostas para todas essas perguntas, precisamos examinar o contexto maior dessa imagem.
1. O que é o Hadoop?
Quem não ouviu falar em Big Data ultimamente? Com centenas de terabytes de dados gerados todos os dias a partir de diferentes fontes, fica claro que o mundo moderno de hoje é um mundo de Big Data
Quando você começa a falar sobre Big Data, mais cedo ou mais tarde, começa a discutir o tópico mais quente do mundo do Big Data: Hadoop - mas o que exatamente é isso?
O Hadoop é uma estrutura de programação de código-fonte aberto, baseada em Java, que suporta o processamento e armazenamento de conjuntos de dados extremamente grandes em um ambiente de computação distribuído.
Os 4 módulos do Hadoop -
O Hadoop é composto por 4 módulos -
- Sistema de arquivos distribuídos
O sistema de arquivos distribuídos permite que os dados sejam armazenados em um formato facilmente acessível, em um grande número de dispositivos de armazenamento vinculados.
- Mapa Reduzir
Map Reduce é a combinação de duas operações - lendo os dados do banco de dados e colocando-os em um formato adequado para análise (mapa) e execução de operações matemáticas (redução).
- Hadoop Common
O Hadoop Common fornece as ferramentas necessárias para os dados armazenados no HDFS (Hadoop Distributed File System)
- FIO
O YARN gerencia os recursos dos sistemas que armazenam os dados e executam a análise.
2. O que é um Data Warehouse?
Um data warehouse é um banco de dados relacional projetado para dados de consulta e análise. Geralmente contém dados históricos derivados de diferentes fontes.
O ambiente do armazém de dados inclui soluções ETL, um mecanismo de processamento analítico online (OLAP), ferramentas de análise de clientes e outros aplicativos que gerenciam o processo de análise de dados e entrega aos usuários corporativos.
Vamos resumir o que é o data warehouse -
-
Orientado ao assunto
Um armazém de dados pode ser usado para analisar uma área de assunto específica, como vendas, finanças e estoque. Cada área de assunto contém dados detalhados.
-
Integrado
Um data warehouse integra dados de várias fontes de dados. Por exemplo, as datas estão no mesmo formato, os códigos masculino / feminino são consistentes. Em um data warehouse, haverá apenas uma maneira única de identificar um produto e eles usam o mesmo registro de cliente, não cópias
-
Não volátil
Os dados são armazenados no armazém de dados sem modificação e não serão alterados. Portanto, dados históricos em um data warehouse nunca devem ser alterados.
-
Tempo variável
é possível recuperar dados de 3 meses, 6 meses, 12 meses ou até dados mais antigos de um data warehouse.
-
Não é virtual
O armazém de dados é um repositório físico persistente.
Data Warehouse vs Hadoop (Infográficos)
Abaixo estão as 6 principais comparações entre Data Warehouse e Hadoop
Data Warehouse vs Hadoop - Qual usar?
- Se você possui dados limpos, consistentes e de alta qualidade, deve procurar o Data Warehouse porque o Hadoop não possui qualidade de dados em algumas de suas soluções.
- Se você possui Dados Não Estruturados Não Processados, deve ir para o Hadoop porque o Hadoop funciona bem com dados não estruturados / não processados, mas o Data Warehouse funciona apenas com dados estruturados.
- Para relatórios interativos e de baixa latência, você deve ir para o Data Warehouse
- Para consultas OLTP / em tempo real / ponto, você deve ir para o Data Warehouse porque o Hadoop funciona bem com dados em lote.
- Para conjuntos de dados de grande volume, você deve optar pelo Hadoop porque o Hadoop foi projetado para resolver problemas de Big Data.
Tabela de comparação direta entre Data Warehouse e Hadoop
Abaixo está a lista de pontos que descrevem as Comparações entre Data Warehouse e Hadoop
Base para comparação | Armazém de dados | Hadoop |
Dados | No Data Warehouse, analisamos dados estruturados e processados | No Hadoop, podemos processar qualquer tipo de dados, incluindo estruturado / não estruturado / semiestruturado e bruto |
Em processamento | Seu processamento é baseado em conceitos de esquema na gravação | Seu processamento é baseado em conceitos de esquema na leitura |
Armazenamento | Adequado para dados com pequeno volume e é muito caro para dados de grande volume | Funciona bem com grandes conjuntos de dados com enorme volume, velocidade e variedade |
Agilidade | É menos ágil e de configuração fixa | É altamente ágil, configure e reconfigure conforme necessário |
Segurança | As tecnologias de Data Warehouse existem há décadas. Assim, em termos de segurança, podemos contar com o Data Warehouse | Embora as tecnologias Hadoop sejam relativamente novas em comparação com o Data Warehouse, a segurança é uma grande preocupação aqui |
Comercial | Profissionais de negócios geralmente usam data warehouse | O Hadoop é bastante famoso no campo da ciência de dados e engenharia de dados |
Conclusão - Data Warehouse vs Hadoop
Agora que sabemos sobre o Data Warehouse e o Hadoop, vamos voltar e examinar a pergunta que fizemos no início deste artigo do Data Warehouse e Hadoop -
1) se você possui big data, precisa de um data warehouse?
Resposta - desde que sua organização precise de dados confiáveis, confiáveis e acessíveis, você precisará de um data warehouse.
2) O Hadoop substituirá o data warehouse?
Resposta - Comparar o Data Warehouse vs Hadoop é como comparar maçãs e laranjas. O Data Warehouse e o Hadoop têm seus próprios benefícios em diferentes cenários de casos de uso. Em alguns casos, ainda dependemos das técnicas tradicionais de Data Warehouse, mas conforme o tempo muda, estamos mais focados no Hadoop Framework para lidar com problemas de Big Data.
3) Isso é uma morte da era tradicional do Data Warehouse?
Resposta - Como você pode ver, essa não é realmente uma pergunta simples e, portanto, não se presta bem a uma resposta simples. É verdade que o big data mudará a abordagem tradicional de data warehousing nos próximos anos, mas não obsoleta os conceitos e práticas do data warehousing.
Artigo recomendado
Este foi um guia útil para o Data Warehouse vs Hadoop. Aqui discutimos seu significado, comparação cara a cara, diferença de chave e conclusão. Você também pode consultar o seguinte artigo para saber mais -
- Hadoop vs Splunk - Descubra as 7 melhores diferenças
- Hadoop vs Elasticsearch - Qual é mais útil
- Big Data vs Data Warehouse - Descubra as melhores diferenças
- Business Intelligence vs Data Warehouse
- Nagios vs Splunk