Arquitetura de mineração de dados - Componentes da arquitetura de mineração de dados

Índice:

Anonim

Visão geral da arquitetura de mineração de dados

A mineração de dados é a maneira de encontrar e explorar os padrões básico ou de nível avançado em um conjunto complicado de grandes conjuntos de dados que envolve os métodos colocados na interseção de estatísticas, aprendizado de máquina e também sistemas de banco de dados. Pode-se dizer que é um campo interdisciplinar de estatística e ciências da computação, onde o objetivo é extrair as informações usando métodos e técnicas inteligentes de um conjunto específico de dados por meio de extração e, assim, transformar os dados. As atividades de gerenciamento de dados e as atividades de pré-processamento de dados, juntamente com as considerações de inferência também são levadas em consideração. Neste artigo, vamos nos aprofundar na arquitetura da mineração de dados.

Arquitetura de mineração de dados

A mineração de dados é a técnica de extrair conhecimentos interessantes de um conjunto de grandes quantidades de dados que são armazenados em muitas fontes de dados, como sistemas de arquivos, data warehouses e bancos de dados. Os principais componentes da arquitetura de mineração de dados envolvem:

1. Fontes de dados

Uma enorme variedade de documentos atuais, como data warehouse, banco de dados, www ou popularmente chamada de World Wide Web que se torna a fonte de dados real. Na maioria das vezes, também pode ser que os dados não estejam presentes em nenhuma dessas fontes de ouro, mas apenas na forma de arquivos de texto, arquivos simples ou arquivos de sequência ou planilhas e, em seguida, os dados precisam ser processados ​​de maneira muito de maneira semelhante ao processamento sobre os dados recebidos de fontes douradas. Atualmente, a maior parte dos dados principais é recebida da Internet ou da World Wide Web, pois tudo o que está presente na Internet hoje são dados de alguma forma ou de outra que forma alguma forma de unidades de repositório de informações.

Antes de os dados serem processados ​​adiante, os diferentes processos pelos quais passa envolvem limpeza, integração e seleção de dados antes de finalmente serem transmitidos para o banco de dados ou para qualquer servidor do EDW (Enterprise Data Warehouse). O principal desafio que às vezes se encontra com esse conjunto de dados são os diferentes níveis de fontes e uma ampla variedade de formatos de dados que formam os componentes de dados. Portanto, os dados não podem ser usados ​​diretamente para processamento em seu estado ingênuo, mas processados, transformados e criados de uma maneira muito mais utilizável. Dessa forma, a confiabilidade e a integridade dos dados também são garantidas. Portanto, a etapa principal envolve a coleta, limpeza e integração de dados e publica que apenas os dados relevantes são transmitidos. Toda essa atividade faz parte de um conjunto separado de ferramentas e técnicas.

2. Servidor ou Banco de Dados do Data Warehouse

O servidor de banco de dados é o espaço real em que os dados estão contidos após serem recebidos de vários números de fontes de dados. O servidor contém o conjunto real de dados que fica pronto para ser processado e, portanto, o servidor gerencia a recuperação de dados. Toda essa atividade é baseada na solicitação de mineração de dados da pessoa.

3. Mecanismo de mineração de dados

No caso da mineração de dados, o mecanismo forma o componente principal e é a parte mais vital, ou seja, a força motriz que lida com todas as solicitações e as gerencia e é usada para conter vários módulos. O número de módulos presentes inclui tarefas de mineração, como técnica de classificação, técnica de associação, técnica de regressão, caracterização, previsão e agrupamento, análise de séries temporais, Bayes ingênuo, máquinas de vetores de suporte, métodos de ensemble, técnicas de reforço e ensacamento, florestas aleatórias, árvores de decisão, etc.

4. Módulos de avaliação de padrões

Essa técnica de avaliação dos módulos é responsável principalmente por medir a interessante de todos os padrões que estão sendo usados ​​para calcular o nível básico do valor limite e também é usada para interagir com o mecanismo de mineração de dados e coordenar a avaliação de outros módulos. Em suma, o principal objetivo desse componente é procurar e procurar todos os padrões interessantes e úteis que podem tornar os dados de qualidade comparativamente melhor.

5. Interface gráfica do usuário

Quando os dados são comunicados com os mecanismos e entre várias avaliações de padrões de módulos, torna-se necessário interagir com os vários componentes presentes e torná-los mais amigáveis ​​para que o uso eficiente e eficaz de todos os componentes presentes possa ser feito e, portanto, surge a necessidade de uma interface gráfica de usuário conhecida popularmente como GUI.

Isso é usado para estabelecer um senso de contato entre o usuário e o sistema de mineração de dados, ajudando assim os usuários a acessar e usar o sistema de maneira eficiente e fácil para mantê-los desprovidos de qualquer complexidade que tenha surgido no processo. Essa é uma forma de abstração em que apenas os componentes relevantes são exibidos aos usuários e todas as complexidades e funcionalidades responsáveis ​​pela construção do sistema são ocultas por uma questão de simplicidade. Sempre que o usuário envia uma consulta, o módulo interage com o conjunto geral de um sistema de mineração de dados para produzir uma saída relevante que pode ser facilmente mostrada ao usuário de uma maneira muito mais compreensível.

6. Base de Conhecimento

Esse é o componente que forma a base do processo geral de mineração de dados, pois ajuda na orientação da pesquisa ou na avaliação da interesse dos padrões formados. Essa base de conhecimento consiste em crenças do usuário e também nos dados obtidos de experiências do usuário que, por sua vez, são úteis no processo de mineração de dados. O mecanismo pode obter seu conjunto de entradas da base de conhecimento criada e, portanto, fornece resultados mais eficientes, precisos e confiáveis.

Atualmente, a mineração de dados é uma das técnicas mais importantes que lida com gerenciamento e processamento de dados que formam a espinha dorsal de qualquer organização. A análise de dados em qualquer organização trará resultados frutíferos. Cada componente da técnica e arquitetura de mineração de dados tem sua própria maneira de executar responsabilidades e também de concluir a mineração de dados com eficiência. Os diferentes módulos são necessários para interagir corretamente, a fim de produzir um resultado valioso e concluir com êxito o procedimento complexo de mineração de dados, fornecendo o conjunto correto de informações para os negócios.

Artigos recomendados

Este foi um guia para a arquitetura de mineração de dados. Aqui discutimos os principais componentes da arquitetura de mineração de dados. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. Ferramenta de mineração de dados
  2. Vantagens da mineração de dados
  3. O que é clustering na mineração de dados?
  4. Perguntas e respostas da entrevista em HTML5
  5. Técnicas mais usadas de aprendizagem por conjuntos
  6. Algoritmos de Modelos em Mineração de Dados