O que é um Data Lake? - Necessidade de dados, juntamente com suas vantagens e riscos

Visão Geral do Data Lake

Um data lake é um repositório no qual podemos armazenar uma grande quantidade de dados semiestruturados, estruturados e não estruturados. Um ID exclusivo com um conjunto de tags de metadados estendidos é atribuído a todos os elementos de dados de um data lake. Quando surge uma pergunta comercial, você pode solicitar os dados relevantes e analisar dados menores para ajudar a responder à pergunta. O lago tem uma arquitetura plana, em oposição a um armazém de dados hierárquico, onde os dados são armazenados em arquivos e pastas. Sem a primeira estruturação dos dados, você pode armazenar suas informações como estão e podemos executar vários tipos de análise, como painéis e visualizações, para um grande processamento de dados, análises em tempo real e aprendizado de máquina para informar as melhores decisões.

Um lago é usado por profissionais como cientistas de dados, desenvolvedores de dados e analistas de negócios para armazenar uma grande quantidade de dados.

Ele é usado em um lago e não relacional e relacional a partir de dispositivos IoT, sites, aplicativos móveis etc. No Schema, ele é escrito no momento da análise, ou seja, esquema de leitura. O resultado após a execução da consulta é mais rápido.

Por que precisamos de um Data Lake?

Ao construir um lago, os cientistas de dados podem ver a visão não refinada dos dados.

Os motivos para usá-lo são os seguintes:

A empresa que produz benefícios comerciais a partir de seus dados excede com êxito seus pares. Em uma pesquisa da Aberdeen, a corporação que montou o Data Lake estava 9% acima do desempenho de crescimento da receita orgânica de empresas similares. Esses líderes foram capazes de executar novos tipos de análise, como aprendizado de máquina, por meio de novas fontes, como arquivos de log, dados de fluxo de cliques, mídias sociais e conectividade com a Internet no lago.

Ele suporta a importação de dados que chegam em tempo real. Os dados são coletados de vários recursos e depois movidos para o lago no formato original. Um lago fornece maior escalabilidade de dados. Além disso, você pode saber que tipo de dados existe no lago indexando, rastreando e catalogando os dados.

Ele suporta Governança de Dados, que gerencia a disponibilidade, usabilidade, segurança e integridade dos dados.

Pode ajudar as equipes de Pesquisa e Desenvolvimento a testar suas hipóteses, refinar suposições e avaliar os resultados.

Nenhuma estrutura de silo está disponível.

Oferece aos clientes uma visão de 360 graus e uma análise robusta.

A qualidade da análise também aumenta com o aumento do volume de dados, qualidade dos dados e metadados.

Mecanismos de armazenamento como o Hadoop tornaram fácil o armazenamento de informações diferentes. Não há necessidade de modelar dados com um Lake em um esquema para toda a empresa.
A qualidade das análises também aumenta com o aumento do volume de dados, qualidade dos dados e metadados.
Oferece agilidade nos negócios
É possível usar aprendizado de máquina e inteligência artificial para fazer previsões lucrativas.

Arquitetura do Data Lake no Hadoop, AWS e Azure

Um data lake possui dois componentes: armazenamento e cálculo. O armazenamento e a computação podem estar localizados no local ou na nuvem. Isso resulta no design de uma arquitetura de data lake em várias combinações possíveis.

1. Hadoop

Um cluster Hadoop de servidor distribuído resolve a preocupação de armazenamento de big data. MapReduce é o modelo de programação Hadoop usado para dividir e processar informações em subconjuntos menores no cluster de servidores.

2. AWS

A gama de produtos da AWS para sua solução de data lake é abrangente. O Amazon S3 está no centro da solução da função de armazenamento. Essas ferramentas de ingestão de dados que nos permitem transferir grandes quantidades de dados para o S3 são o Kinesis Stream, o Kinesis Firehose, o Snowball e o Direct Connect.

Além do Amazon S3, o banco de dados NoSQL, Dynamo DB e Elastic Search oferecem um processo simplificado de consulta. A AWS oferece uma grande variedade de produtos com uma curva de aprendizado inicial acentuada. No entanto, os recursos abrangentes da solução são amplamente utilizados em aplicativos de inteligência comercial.

3. Azure

A Micro-Soft ofereceu o data lake. O data lake do Azure tem uma camada de análise e armazenamento chamada Armazenamento do Azure (ADLS) e os dois componentes em que a camada analítica possui o Azure Analytics e o HDInsight. O padrão ADLS foi construído em HDFS e é capaz de armazenamento ilimitado. Ele pode salvar trilhões de arquivos maiores que um petabyte de tamanho com um único arquivo. O Azure Store possibilita que os dados sejam armazenados, protegidos e escalonáveis em qualquer formato.

Benefícios

Alguns pontos importantes são mostrados abaixo

Fornece valor ilimitado de tipo de dados
Adaptável a mudanças rapidamente
Os custos de propriedade a longo prazo são reduzidos
Sua principal vantagem é centralizar várias fontes de conteúdo
Usuários de diferentes departamentos ao redor do mundo podem ter acesso flexível a dados
Oferece escalabilidade e flexibilidade econômicas

Risco

Pode perder relevância e impulso depois de algum tempo.
Existe um risco maior ao projetar
Também aumenta o custo de armazenamento e produtos
Segurança e controle de acesso é o maior risco. Às vezes, os dados podem ser colocados em um lago sem supervisão, pois alguns deles podem precisar de proteção e regulamentação.

Artigos recomendados

Este foi um guia para O que é um Data Lake ?. Aqui discutimos o conceito: por que precisamos do Data Lake, juntamente com suas vantagens e riscos. Você também pode ler nossos outros artigos sugeridos para saber mais.

Integração moderna de dados
O que é o Data Analytics
O que é violação de dados?
Cientista de dados vs Big Data
Data Lake vs Data Warehouse | Diferenças

O que é um Data Lake? - Necessidade de dados, juntamente com suas vantagens e riscos

Índice:

Visão Geral do Data Lake

Por que precisamos de um Data Lake?

Arquitetura do Data Lake no Hadoop, AWS e Azure

1. Hadoop

2. AWS

3. Azure

Benefícios

Risco

Artigos recomendados

Bancos em Ilhas Cayman - Guia dos 10 principais bancos das Ilhas Cayman

Bancos em Guernsey - Visão geral e guia dos 10 principais bancos de Guernsey

Bancos em França - Visão geral e guia dos 10 principais bancos da França

Bancos em Ilha de Man - Guia para os 10 principais bancos da Ilha de Man

Bancos na Finlândia - Visão geral e guia dos 10 principais bancos da Finlândia

Tipos de aplicativos móveis - Vantagens e desvantagens de aplicativos móveis

Tipos de junções no SQL - Os quatro principais tipos de junções no SQL com exemplos

Tipos de dispositivos de rede - Os 8 principais tipos diferentes de dispositivos de rede

Tipos de ataques de rede - Diferentes tipos de ataques de rede

Tipos de rede - Introdução e diferentes tipos de rede

15 poderosas idéias e dicas de marketing de varejo de baixo custo

As 24 principais perguntas da entrevista sobre aprendizado de máquina essencial atualizadas para 2019

Ciclo de vida do aprendizado de máquina - As 8 principais etapas do ciclo de vida do Machine Learning

Animação de logotipo no After Effects - Tutoriais para animar o logotipo no After Effects

Bibliotecas de aprendizado de máquina - As 11 principais bibliotecas de aprendizado de máquina