Métodos de agrupamento - Importância e técnicas dos métodos de agrupamento

Índice:

Anonim

Introdução aos métodos de cluster

Este artigo apresenta uma visão geral dos diferentes métodos de cluster usados ​​em técnicas de mineração de dados com diferentes princípios. Clustering é um conjunto de objetos de dados organizados em um agrupamento lógico diferente. Agrupando itens de dados semelhantes e atribuindo itens de dados semelhantes em clusters individuais. O armazenamento em cluster é realizado em grandes conjuntos de dados para aprendizado não supervisionado. Durante isso, realizamos partição no conjunto de dados em grupos. A estrutura do cluster é representada da seguinte forma com subconjuntos. C = c1, c2… c n . Como os grupos de cluster têm objetos semelhantes, algumas medidas devem ser tomadas nos métodos de cluster para determinar as medidas de distância e similaridade. Os métodos de agrupamento são baseados em modelos probabilísticos. A mineração de dados exige clustering para que a escalabilidade lide com bancos de dados altos, manipule espaço multidimensional e lide com dados e ruídos incorretos.

Explicar métodos de clustering?

Esse método de agrupamento ajuda a agrupar dados valiosos em agrupamentos e, a partir disso, seleciona resultados apropriados com base em diferentes técnicas. Por exemplo, na recuperação de informações, os resultados da consulta são agrupados em pequenos agrupamentos e cada cluster possui resultados irrelevantes. Por técnicas de cluster, elas são agrupadas em categorias semelhantes e cada categoria é subdividida em subcategorias para ajudar na exploração da saída de consultas. Existem vários tipos de métodos de cluster, eles são

  • Métodos hierárquicos
  • Métodos de particionamento
  • Baseado em densidade
  • Armazenamento em Cluster Baseado em Modelo
  • Modelo baseado em grade

A seguir, é apresentada uma visão geral das técnicas usadas na mineração de dados e na inteligência artificial.

1. Método hierárquico

Esse método cria um cluster particionando de maneira descendente e descendente. Ambas as abordagens produzem dendrogramas, elas fazem conectividade entre elas. O dendrograma é um formato de árvore que mantém a sequência de clusters mesclados. Métodos hierárquicos são produzidos várias partições com relação aos níveis de similaridade. Eles são divididos em cluster hierárquico aglomerativo e cluster hierárquico divisivo. Aqui, uma árvore de cluster é criada usando técnicas de mesclagem. Para o processo de divisão divisivo é usado, a fusão usa um aglomerado. O agrupamento aglomerativo envolve:

  1. Inicialmente, pegar todos os pontos de dados e considerá-los como clusters individuais começa de cima para baixo. Esses clusters são mesclados até obtermos os resultados desejados.
  2. Os próximos dois clusters semelhantes são agrupados para formar um enorme cluster único.
  3. Calcular novamente a proximidade no cluster enorme e mesclar os clusters semelhantes.
  4. A etapa final envolve a fusão de todos os clusters produzidos em cada etapa para formar um único cluster final.

2. Método de Particionamento:

O principal objetivo da partição é a realocação. Eles realocam partições mudando de um cluster para outro, o que faz um particionamento inicial. Ele divide 'n' objetos de dados em 'k' número de clusters. Esse método de partição é preferido mais do que um modelo hierárquico no reconhecimento de padrões. Os seguintes critérios são definidos para satisfazer as técnicas:

  • Cada cluster deve ter um objeto.
  • Cada objeto de dados pertence a um único cluster.

As técnicas de Partição mais usadas são o algoritmo K-mean. Eles se dividem em grupos 'K' representados por centróides. Cada centro de cluster é calculado como uma média desse cluster e a função R visualiza o resultado. Este algoritmo possui as seguintes etapas:

  1. Selecionando K objetos aleatoriamente no conjunto de dados e forma os centros iniciais (centróides)
  2. Em seguida, atribua a distância euclidiana entre os objetos e o centro médio.
  3. Atribuindo um valor médio para cada cluster individual.
  4. Etapas de atualização do Centroid para cada Cluster 'k'.

3. Modelo de densidade:

Nesse modelo, os clusters são definidos localizando regiões de maior densidade em um cluster. O principal princípio por trás deles está concentrado em dois parâmetros: raio máximo da vizinhança e número mínimo de pontos. O modelo baseado em densidade identifica grupos de diferentes formas e ruídos. Ele funciona detectando padrões estimando a localização espacial e a distância do método do vizinho usado aqui é o DBSCAN (cluster espacial baseado em densidade), que fornece grandes bancos de dados espaciais. O uso de três pontos de dados para agrupamento, ou seja, pontos principais, pontos de borda e outliers. O objetivo principal é identificar os clusters e seus parâmetros de distribuição. O processo de armazenamento em cluster é interrompido com a necessidade de parâmetros de densidade. Para encontrar os clusters, é importante ter um parâmetro Recursos mínimos por cluster no cálculo da distância do núcleo. As três ferramentas diferentes fornecidas por este modelo são DBSCAN, HDBSCAN, Multi-scale.

4. Clustering baseado em modelo

Este modelo combina dois ou três clusters juntos na distribuição de dados. A idéia básica por trás desse modelo é que é necessário dividir os dados em dois grupos com base no modelo de probabilidade (distribuições normais multivariadas). Aqui cada grupo é designado como conceitos ou classe. Cada componente é definido por uma função de densidade. Para encontrar o parâmetro neste modelo, a estimativa de máxima verossimilhança é usada para o ajuste da distribuição da mistura. Cada cluster 'K' é modelado por distribuição Gaussiana com vetor médio de dois parâmetros µk e vetor de covariância £ k .

5. Modelo Baseado em Grade

Nesta abordagem, os objetos são considerados movidos pelo espaço, particionando o espaço em um número finito de células para formar uma grade. Com a ajuda da grade, a técnica de agrupamento é aplicada para um processamento mais rápido, geralmente dependente de células e não de objetos. As etapas envolvidas são:

  • Criação da estrutura da grade
  • A densidade celular é calculada para cada célula
  • Aplicando um mecanismo de classificação às suas densidades.
  • Pesquisando centros de cluster e travessia nas células vizinhas para repetir o processo.

Importância dos métodos de agrupamento

  1. Ter métodos de clustering ajuda a reiniciar o procedimento de pesquisa local e remove a ineficiência. O cluster ajuda a determinar a estrutura interna dos dados.
  2. Esta análise de agrupamento foi usada para análise de modelo, região de atração vetorial.
  3. O agrupamento ajuda a entender o agrupamento natural em um conjunto de dados. Seu objetivo é fazer sentido particionar os dados em algum grupo de agrupamentos lógicos.
  4. A qualidade do cluster depende dos métodos e da identificação de padrões ocultos.
  5. Eles desempenham um papel importante em aplicações como pesquisa econômica de marketing, weblogs para identificar padrões em medidas de similaridade, processamento de imagens e pesquisa espacial.
  6. Eles são usados ​​em detecções externas para detectar fraudes no cartão de crédito.

Conclusão

O clustering é considerado uma tarefa geral para resolver o problema que formula o problema de otimização. Ele desempenha uma importância fundamental no campo da mineração e análise de dados. Vimos diferentes métodos de armazenamento em cluster que dividem o conjunto de dados depende dos requisitos. A maior parte da pesquisa é baseada em técnicas tradicionais, como médias-K e modelos hierárquicos. As áreas de cluster são aplicadas em estados de alta dimensão que formam um escopo futuro dos pesquisadores.

Artigo recomendado

Este foi um guia para métodos de cluster. Aqui discutimos o conceito, a importância e as técnicas dos Métodos de Cluster. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. O que é ETL?
  2. O que é ciência de dados
  3. O que é o Teradata?
  4. As 6 principais alternativas da AWS
  5. Clustering no Machine Learning
  6. Regressão multivariada
  7. Clustering hierárquico | Clustering Aglomerativo e Divisivo