Introdução à Arquitetura de Data Warehouse

  • Um Data Warehouse é um local de armazenamento que contém coleções de vários tipos diferentes de dados adquiridos de vários tipos de fontes.
  • Todo o processo no qual as fontes externas de dados são adquiridas, processadas, armazenadas e analisadas para obter informações úteis ocorre em um conjunto de sistemas unificados por um único esquema conhecido como Arquitetura de Data Warehouse.

Arquitetura de Data Warehouse

A Arquitetura do Data Warehouse geralmente compreende três camadas.

  • Nível superior
  • Camada intermediária
  • Camada inferior

Nível superior

  • A camada superior consiste no front end da arquitetura do lado do cliente.
  • As informações aplicadas Transformadas e Lógicas armazenadas no Data Warehouse serão usadas e adquiridas para fins comerciais nesta camada.
  • Várias ferramentas para geração e análise de relatório estão presentes para a geração das informações desejadas.
  • A mineração de dados que se tornou uma grande tendência atualmente é feita aqui.
  • Todo o documento de análise de requisitos, custo e todos os recursos que determinam uma transação comercial baseada no lucro são feitos com base nessas ferramentas que usam as informações do Data Warehouse.

Camada intermediária

  • A camada intermediária consiste nos servidores OLAP
  • OLAP é um servidor de processamento analítico online
  • O OLAP é usado para fornecer informações aos analistas e gerentes de negócios
  • Como está localizado na Camada Intermediária, interage com as informações presentes na Camada Inferior e transmite as informações para as ferramentas da Camada Superior que processam as informações disponíveis.
  • OLAP principalmente relacional ou multidimensional é usado na arquitetura de data warehouse.

Camada inferior

A camada inferior consiste principalmente nas fontes de dados, na ferramenta ETL e no data warehouse.

1. Fontes de dados

As fontes de dados consistem nos dados de origem que são adquiridos e fornecidos às ferramentas de armazenamento temporário e ETL para processo adicional.

2. Ferramentas ETL

  • As ferramentas ETL são muito importantes porque ajudam na combinação de lógica, dados brutos e esquema em um e carregam as informações no data warehouse ou data marts.
  • Às vezes, o ETL carrega os dados nos Data Marts e as informações são armazenadas no Data Warehouse. Essa abordagem é conhecida como abordagem de baixo para cima.
  • A abordagem em que o ETL carrega informações diretamente no Data Warehouse é conhecida como Abordagem de cima para baixo.

Diferença entre abordagem de cima para baixo e abordagem de baixo para cima

Abordagem de cima para baixoAbordagem de baixo para cima
Fornece uma visualização definida e consistente das informações, conforme as informações do data warehouse são usadas para criar Data MartsOs relatórios podem ser gerados facilmente, pois os data marts são criados primeiro e é relativamente fácil interagir com os data marts.
Modelo forte e, portanto, preferido pelas grandes empresasNão é tão forte, mas o data warehouse pode ser estendido e o número de data marts pode ser criado
Tempo, custo e manutenção são altosTempo, custo e manutenção são baixos.

Data Marts

  • O Data Mart também é um componente de armazenamento usado para armazenar dados de uma função ou parte específica relacionada a uma empresa por uma autoridade individual.
  • O data mart reúne as informações do Data Warehouse e, portanto, podemos dizer que o data mart armazena o subconjunto de informações no Data Warehouse.
  • Data Marts são flexíveis e pequenos em tamanho.

3. Data Warehouse

  • O Data Warehouse é o componente central de toda a arquitetura do Data Warehouse.
  • Ele atua como um repositório para armazenar informações.
  • Grandes quantidades de dados são armazenadas no Data Warehouse.
  • Essas informações são usadas por várias tecnologias, como o Big Data, que exigem a análise de grandes subconjuntos de informações.
  • O Data Mart também é um modelo de Data Warehouse.

Camadas diferentes da arquitetura do data warehouse

Existem quatro tipos diferentes de camadas que sempre estarão presentes na Arquitetura do Data Warehouse.

1. Camada da fonte de dados

  • A camada de fonte de dados é a camada em que os dados da fonte são encontrados e subsequentemente enviados para as outras camadas para as operações desejadas.
  • Os dados podem ser de qualquer tipo.
  • Os dados de origem podem ser um banco de dados, uma planilha ou qualquer outro tipo de arquivo de texto.
  • Os dados de origem podem ser de qualquer formato. Não podemos esperar obter dados com o mesmo formato, considerando que as fontes são muito diferentes.
  • Na vida real, alguns exemplos de dados de origem podem ser
  • Arquivos de log de cada aplicativo, trabalho ou entrada específica de empregadores em uma empresa.
  • Dados da pesquisa, dados da bolsa de valores, etc.
  • Dados do navegador da Web e muito mais.

2. Camada de armazenamento temporário de dados

As etapas a seguir ocorrem na camada de armazenamento temporário de dados.

1. Extração de Dados

Os dados recebidos pela camada de origem são alimentados na camada de armazenamento temporário, onde o primeiro processo que ocorre com os dados adquiridos é a extração.

2. Banco de Dados de Aterragem

  • Os dados extraídos são armazenados temporariamente em um banco de dados de desembarque.
  • Ele recupera os dados quando os dados são extraídos.

3. Área de Preparação

  • Os dados no banco de dados de aterrissagem são obtidos e várias verificações de qualidade e operações de preparação são realizadas na área de preparação.
  • A Estrutura e o Esquema também são identificados e são feitos ajustes nos dados não ordenados, tentando assim criar uma semelhança entre os dados que foram adquiridos.
  • Ter um local ou configurar os dados imediatamente antes da transformação e das alterações é uma vantagem adicional que torna o processo de Preparação muito importante.
  • Facilita o processamento de dados.

4. ETL

  • É uma extração, transformação e carga.
  • As Ferramentas ETL são usadas para integração e processamento de dados nos quais a lógica é aplicada a dados brutos, mas de certa forma ordenados.
  • Esses dados são extraídos de acordo com a natureza analítica necessária e transformados em dados considerados adequados para serem armazenados no Data Warehouse.
  • Após a transformação, os dados ou melhor, uma informação são finalmente carregados no armazém de dados.
  • Alguns exemplos de ferramentas ETL são Informatica, SSIS, etc.

3. Camada de Armazenamento de Dados

  • Os dados processados ​​são armazenados no Data Warehouse.
  • Esses Dados são limpos, transformados e preparados com uma estrutura definida e, portanto, oferecem oportunidades para os empregadores usarem os dados conforme exigido pelo Negócio.
  • Dependendo da abordagem da Arquitetura, os dados serão armazenados no Data Warehouse e nos Data Marts. Os data marts serão discutidos nas etapas posteriores.
  • Alguns também incluem um Armazenamento de Dados Operacionais.

4. Camada de Apresentação de Dados

  • Essa camada em que os usuários interagem com os dados armazenados no data warehouse.
  • Consultas e várias ferramentas serão empregadas para obter diferentes tipos de informações com base nos dados.
  • A informação chega ao usuário através da representação gráfica dos dados.
  • As ferramentas de relatório são usadas para obter dados comerciais e a lógica comercial também é aplicada para reunir vários tipos de informações.
  • As operações de Meta Data Information e System e desempenho também são mantidas e visualizadas nesta camada.

Conclusão

Um ponto importante sobre o Data Warehouse é sua eficiência. Para criar um Data Warehouse eficiente, construímos uma estrutura conhecida como Business Analysis Framework. Existem quatro tipos de visualizações em relação ao design de um data warehouse.

1. Visão de cima para baixo: essa visão permite que apenas informações específicas necessárias para um data warehouse sejam selecionadas.

2. Visualização da fonte de dados : Esta visualização mostra todas as informações da fonte de dados até a forma como elas são transformadas e armazenadas.

3. Visualização do Data Warehouse: Esta Visualização mostra as informações presentes no Data Warehouse através de tabelas de fatos e tabelas de dimensões.

4. Visão de Consulta Comercial: Esta é uma visão que mostra os dados do ponto de vista do usuário.

Artigos recomendados

Este foi um guia para a arquitetura de data warehouse. Aqui discutimos os diferentes tipos de visualizações, camadas e camadas da arquitetura do data warehouse. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Carreira em Data Warehousing
  2. Como funciona o JavaScript
  3. Perguntas da entrevista no data warehouse
  4. O que é pandas

Categoria: