K- significa algoritmo de agrupamento - Como funciona Análise e Implementação

Introdução ao algoritmo de agrupamento K-Means?

O agrupamento K-Means pertence ao algoritmo de aprendizado não supervisionado. É usado quando os dados não são definidos em grupos ou categorias, ou seja, dados não rotulados. O objetivo desse algoritmo de agrupamento é procurar e encontrar os grupos nos dados, onde a variável K representa o número de grupos.

Entendendo o K- significa o algoritmo de agrupamento

Esse algoritmo é um algoritmo iterativo que particiona o conjunto de dados de acordo com seus recursos no número K de clusters ou subgrupos distintos e não sobrepostos predefinidos. Torna os pontos de dados dos inter-clusters o mais semelhante possível e também tenta manter os clusters o mais longe possível. Ele aloca os pontos de dados para um cluster se a soma da distância quadrada entre o centróide do cluster e os pontos de dados estiver no mínimo em que o centróide do cluster é a média aritmética dos pontos de dados que estão no cluster. Uma variação menor no cluster resulta em pontos de dados semelhantes ou homogêneos no cluster.

Como o algoritmo de agrupamento K-Means funciona?

O K- significa que o algoritmo de agrupamento precisa das seguintes entradas:

K = número de subgrupos ou clusters
Amostra ou conjunto de treinamento = (x ₁, x ₂, x ₃, ……… x _n )

Agora, vamos supor que temos um conjunto de dados sem rótulo e precisamos dividi-lo em clusters.

Agora precisamos encontrar o número de clusters. Isso pode ser feito por dois métodos:

Método do cotovelo.
Método Finalidade.

Vamos discuti-los em breve:

Método do cotovelo

Nesse método, uma curva é desenhada entre "dentro da soma dos quadrados" (WSS) e o número de clusters. A curva plotada se assemelha a um braço humano. É chamado de método do cotovelo porque o ponto do cotovelo na curva nos dá o número ideal de grupos. No gráfico ou curva, após o ponto do cotovelo, o valor do WSS muda muito lentamente, portanto, o ponto do cotovelo deve ser considerado para fornecer o valor final do número de clusters.

Baseado em finalidade

Nesse método, os dados são divididos com base em diferentes métricas e, em seguida, são julgados o quão bem eles foram executados para esse caso. Por exemplo, o arranjo das camisas no departamento de roupas masculinas em um shopping é feito com base nos critérios dos tamanhos. Isso pode ser feito com base no preço e nas marcas também. O melhor adequado seria escolhido para fornecer o número ideal de grupos, ou seja, o valor de K.

Agora vamos voltar ao conjunto de dados fornecido acima. Podemos calcular o número de clusters, ou seja, o valor de K, usando qualquer um dos métodos acima.

Como usar os métodos acima?

Agora vamos ver o processo de execução:

Etapa 1: Inicialização

Primeiro, inicialize quaisquer pontos aleatórios chamados de centróides do cluster. Durante a inicialização, você deve cuidar para que os centróides do cluster sejam menores que o número de pontos de dados de treinamento. Esse algoritmo é um algoritmo iterativo, portanto, as próximas duas etapas são executadas iterativamente.

Etapa 2: atribuição de cluster

Após a inicialização, todos os pontos de dados são percorridos e a distância entre todos os centróides e os pontos de dados é calculada. Agora, os aglomerados seriam formados, dependendo da distância mínima dos centróides. Neste exemplo, os dados são divididos em dois clusters.

Etapa 3: Movendo o Centroid

Como os clusters formados na etapa acima não são otimizados, precisamos formar clusters otimizados. Para isso, precisamos mover os centróides iterativamente para um novo local. Pegue os pontos de dados de um cluster, calcule sua média e mova o centróide desse cluster para esse novo local. Repita a mesma etapa para todos os outros clusters.

Etapa 4: Otimização

Os dois passos acima são executados iterativamente até que os centróides parem de se mover, ou seja, não mudam mais de posição e se tornam estáticos. Uma vez feito isso, o algoritmo k-means é denominado para ser convergido.

Etapa 5: Convergência

Agora, esse algoritmo convergiu e clusters distintos são formados e claramente visíveis. Esse algoritmo pode fornecer resultados diferentes, dependendo de como os clusters foram inicializados na primeira etapa.

Aplicações do algoritmo de agrupamento K-Means

Segmentação de mercado
Cluster de documentos
Segmentação de imagem
Compactação de imagem
Quantização vetorial
Análise de cluster
Aprendizagem de recursos ou aprendizagem de dicionário
Identificação de áreas propensas a crimes
Detecção de fraude de seguros
Análise de dados de transporte público
Cluster de ativos de TI
Segmentação de clientes
Identificação de dados cancerígenos
Usado nos mecanismos de pesquisa
Previsão de atividade de drogas

Vantagens do algoritmo de agrupamento K-Means

Isso é rápido
Robusto
Fácil de entender
Comparativamente eficiente
Se os conjuntos de dados são distintos, obtém os melhores resultados
Produzir clusters mais apertados
Quando os centróides são recalculados, o cluster muda.
Flexível
Fácil de interpretar
Melhor custo computacional
Melhora a precisão
Funciona melhor com clusters esféricos

Desvantagens do algoritmo de agrupamento K-Means

Precisa de especificação prévia para o número de centros de cluster
Se houver dois dados altamente sobrepostos, eles não poderão ser distinguidos e não poderão dizer que existem dois clusters
Com a representação diferente dos dados, os resultados alcançados também são diferentes
A distância euclidiana pode pesar de maneira desigual os fatores
Dá o ótimo local da função de erro ao quadrado
Às vezes, escolher os centróides aleatoriamente não pode dar resultados frutíferos
Só pode ser usado se o significado estiver definido
Não é possível lidar com dados discrepantes e barulhentos
Não trabalhe para o conjunto de dados não lineares
Falta consistência
Sensível à escala
Se forem encontrados conjuntos de dados muito grandes, o computador poderá travar.
Problemas de previsão

Artigos recomendados

Este foi um guia para o algoritmo de agrupamento K-Means. Aqui discutimos o trabalho, aplicativos, vantagens e desvantagens do algoritmo de agrupamento K-Means. Você também pode consultar nossos outros artigos sugeridos para saber mais -

O que são redes neurais?
O que é mineração de dados? | Papel da mineração de dados
Pergunta da entrevista sobre mineração de dados
Aprendizado de máquina versus rede neural
Clustering no Machine Learning

K- significa algoritmo de agrupamento - Como funciona Análise e Implementação

Índice:

Introdução ao algoritmo de agrupamento K-Means?

Entendendo o K- significa o algoritmo de agrupamento

Como o algoritmo de agrupamento K-Means funciona?

Método do cotovelo

Baseado em finalidade

Como usar os métodos acima?

Etapa 1: Inicialização

Etapa 2: atribuição de cluster

Etapa 3: Movendo o Centroid

Etapa 4: Otimização

Etapa 5: Convergência

Aplicações do algoritmo de agrupamento K-Means

Vantagens do algoritmo de agrupamento K-Means

Desvantagens do algoritmo de agrupamento K-Means

Artigos recomendados

O Big Data é um banco de dados? - Conceito e Análise de Big Data

Função IPMT (fórmula, exemplos) - Como usar o IPMT no Excel?

IRA vs 401 (k) - As 8 melhores diferenças (com infográficos)

Blockchain é seguro - Quão segura é a tecnologia Blockchain

Blockchain é o futuro - Futuro da Blockchain e seu impacto

Desempenho de c vs c ++ - Descubra as 8 comparações importantes

Estratégia de aquisição de clientes - principais comerciantes em crescimento passo a passo

C vs Python - 10 diferenças mais valiosas que você deve saber

6 razões importantes pelas quais o suporte ao cliente é importante - edu CBA

Você sabia? 4 tipos nocivos de crimes cibernéticos na Índia

Como instalar o Adobe Bridge CC

Efeito de painéis de fotos verticais - Photoshop Tutorial

Como tornar o Photoshop o seu editor de imagens padrão no Mac OS X

Faça do Photoshop o seu editor de imagens padrão no Windows 10

Criar uma moldura de madeira no Photoshop