Introdução ao algoritmo de agrupamento K-Means?

O agrupamento K-Means pertence ao algoritmo de aprendizado não supervisionado. É usado quando os dados não são definidos em grupos ou categorias, ou seja, dados não rotulados. O objetivo desse algoritmo de agrupamento é procurar e encontrar os grupos nos dados, onde a variável K representa o número de grupos.

Entendendo o K- significa o algoritmo de agrupamento

Esse algoritmo é um algoritmo iterativo que particiona o conjunto de dados de acordo com seus recursos no número K de clusters ou subgrupos distintos e não sobrepostos predefinidos. Torna os pontos de dados dos inter-clusters o mais semelhante possível e também tenta manter os clusters o mais longe possível. Ele aloca os pontos de dados para um cluster se a soma da distância quadrada entre o centróide do cluster e os pontos de dados estiver no mínimo em que o centróide do cluster é a média aritmética dos pontos de dados que estão no cluster. Uma variação menor no cluster resulta em pontos de dados semelhantes ou homogêneos no cluster.

Como o algoritmo de agrupamento K-Means funciona?

O K- significa que o algoritmo de agrupamento precisa das seguintes entradas:

  • K = número de subgrupos ou clusters
  • Amostra ou conjunto de treinamento = (x 1, x 2, x 3, ……… x n )

Agora, vamos supor que temos um conjunto de dados sem rótulo e precisamos dividi-lo em clusters.

Agora precisamos encontrar o número de clusters. Isso pode ser feito por dois métodos:

  • Método do cotovelo.
  • Método Finalidade.

Vamos discuti-los em breve:

Método do cotovelo

Nesse método, uma curva é desenhada entre "dentro da soma dos quadrados" (WSS) e o número de clusters. A curva plotada se assemelha a um braço humano. É chamado de método do cotovelo porque o ponto do cotovelo na curva nos dá o número ideal de grupos. No gráfico ou curva, após o ponto do cotovelo, o valor do WSS muda muito lentamente, portanto, o ponto do cotovelo deve ser considerado para fornecer o valor final do número de clusters.

Baseado em finalidade

Nesse método, os dados são divididos com base em diferentes métricas e, em seguida, são julgados o quão bem eles foram executados para esse caso. Por exemplo, o arranjo das camisas no departamento de roupas masculinas em um shopping é feito com base nos critérios dos tamanhos. Isso pode ser feito com base no preço e nas marcas também. O melhor adequado seria escolhido para fornecer o número ideal de grupos, ou seja, o valor de K.

Agora vamos voltar ao conjunto de dados fornecido acima. Podemos calcular o número de clusters, ou seja, o valor de K, usando qualquer um dos métodos acima.

Como usar os métodos acima?

Agora vamos ver o processo de execução:

Etapa 1: Inicialização

Primeiro, inicialize quaisquer pontos aleatórios chamados de centróides do cluster. Durante a inicialização, você deve cuidar para que os centróides do cluster sejam menores que o número de pontos de dados de treinamento. Esse algoritmo é um algoritmo iterativo, portanto, as próximas duas etapas são executadas iterativamente.

Etapa 2: atribuição de cluster

Após a inicialização, todos os pontos de dados são percorridos e a distância entre todos os centróides e os pontos de dados é calculada. Agora, os aglomerados seriam formados, dependendo da distância mínima dos centróides. Neste exemplo, os dados são divididos em dois clusters.

Etapa 3: Movendo o Centroid

Como os clusters formados na etapa acima não são otimizados, precisamos formar clusters otimizados. Para isso, precisamos mover os centróides iterativamente para um novo local. Pegue os pontos de dados de um cluster, calcule sua média e mova o centróide desse cluster para esse novo local. Repita a mesma etapa para todos os outros clusters.

Etapa 4: Otimização

Os dois passos acima são executados iterativamente até que os centróides parem de se mover, ou seja, não mudam mais de posição e se tornam estáticos. Uma vez feito isso, o algoritmo k-means é denominado para ser convergido.

Etapa 5: Convergência

Agora, esse algoritmo convergiu e clusters distintos são formados e claramente visíveis. Esse algoritmo pode fornecer resultados diferentes, dependendo de como os clusters foram inicializados na primeira etapa.

Aplicações do algoritmo de agrupamento K-Means

  • Segmentação de mercado
  • Cluster de documentos
  • Segmentação de imagem
  • Compactação de imagem
  • Quantização vetorial
  • Análise de cluster
  • Aprendizagem de recursos ou aprendizagem de dicionário
  • Identificação de áreas propensas a crimes
  • Detecção de fraude de seguros
  • Análise de dados de transporte público
  • Cluster de ativos de TI
  • Segmentação de clientes
  • Identificação de dados cancerígenos
  • Usado nos mecanismos de pesquisa
  • Previsão de atividade de drogas

Vantagens do algoritmo de agrupamento K-Means

  • Isso é rápido
  • Robusto
  • Fácil de entender
  • Comparativamente eficiente
  • Se os conjuntos de dados são distintos, obtém os melhores resultados
  • Produzir clusters mais apertados
  • Quando os centróides são recalculados, o cluster muda.
  • Flexível
  • Fácil de interpretar
  • Melhor custo computacional
  • Melhora a precisão
  • Funciona melhor com clusters esféricos

Desvantagens do algoritmo de agrupamento K-Means

  • Precisa de especificação prévia para o número de centros de cluster
  • Se houver dois dados altamente sobrepostos, eles não poderão ser distinguidos e não poderão dizer que existem dois clusters
  • Com a representação diferente dos dados, os resultados alcançados também são diferentes
  • A distância euclidiana pode pesar de maneira desigual os fatores
  • Dá o ótimo local da função de erro ao quadrado
  • Às vezes, escolher os centróides aleatoriamente não pode dar resultados frutíferos
  • Só pode ser usado se o significado estiver definido
  • Não é possível lidar com dados discrepantes e barulhentos
  • Não trabalhe para o conjunto de dados não lineares
  • Falta consistência
  • Sensível à escala
  • Se forem encontrados conjuntos de dados muito grandes, o computador poderá travar.
  • Problemas de previsão

Artigos recomendados

Este foi um guia para o algoritmo de agrupamento K-Means. Aqui discutimos o trabalho, aplicativos, vantagens e desvantagens do algoritmo de agrupamento K-Means. Você também pode consultar nossos outros artigos sugeridos para saber mais -

  1. O que são redes neurais?
  2. O que é mineração de dados? | Papel da mineração de dados
  3. Pergunta da entrevista sobre mineração de dados
  4. Aprendizado de máquina versus rede neural
  5. Clustering no Machine Learning

Categoria: