O que é análise de cluster
A análise de cluster agrupa dados com base nas características que eles possuem. A análise de cluster agrupa objetos com base nos fatores que os tornam semelhantes. A análise de cluster também é chamada de análise de segmentação ou análise de taxonomia. A análise de cluster não diferencia variáveis dependentes e independentes. A análise de cluster é usada em uma ampla variedade de campos, como psicologia, biologia, estatística, mineração de dados, reconhecimento de padrões e outras ciências sociais.
Objetivo da análise de cluster
O principal objetivo da análise de cluster é abordar a heterogeneidade em cada conjunto de dados. Os outros objetivos da análise de cluster são
- Descrição da taxonomia - identificação de grupos nos dados
- Simplificação de dados - A capacidade de analisar grupos de observações semelhantes em vez de todas as observações individuais
- Geração ou teste de hipóteses - Desenvolva hipóteses com base na natureza dos dados ou para testar a hipótese declarada anteriormente
- Identificação de relacionamento - a estrutura simplificada da análise de cluster que descreve os relacionamentos
Existem dois propósitos principais da análise de cluster - Entendimento e Utilidade.
Na circunstância de Entendimento, a análise de cluster agrupa objetos que compartilham algumas características comuns
No propósito do Utility, a análise de cluster fornece as características de cada objeto de dados aos clusters aos quais eles pertencem.
A análise de cluster anda de mãos dadas com a análise fatorial e análise discriminante.
Você deve se perguntar algumas questões de análise de cluster antes de começar com ela
- Quais variáveis são relevantes?
- O tamanho da amostra é suficiente?
- Os outliers podem ser detectados e devem ser removidos?
- Como a similaridade de objetos deve ser medida?
- Os dados devem ser padronizados?
Tipos de Clusters
Existem três tipos principais de cluster
- Clustering hierárquico - que contém o método aglomerativo e divisivo
- Clustering Particional - Contém K-Means, K Fuzzy K-Means, Isodata sob ele
- Clustering Baseado em Densidade - Possui Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed
Suposições na análise de cluster
Sempre há duas suposições na análise de cluster
- Supõe-se que a amostra seja um representante da população
- Supõe-se que as variáveis não estejam correlacionadas. Mesmo se as variáveis estiverem correlacionadas, remova as variáveis correlacionadas ou use medidas de distância que compensem a correlação.
Etapas na análise de cluster
-
- Etapa 1: Definir o Problema
- Etapa 2: decida a medida de similaridade apropriada
- Etapa 3: decida como agrupar os objetos
- Etapa 4: Decida o número de clusters
- Etapa 5: interpretar, descrever e validar o cluster
Análise de cluster no SPSS
No SPSS, você pode encontrar a opção de análise de cluster na opção Analisar / Classificar. No SPSS, existem três métodos para a análise de cluster - K-Means Cluster, Hierarchical Cluster e Two Step Cluster.
O método de cluster K-Means classifica um determinado conjunto de dados por meio de um número fixo de clusters. Esse método é fácil de entender e fornece a melhor saída quando os dados estão bem separados um do outro.
A análise de cluster em duas etapas é uma ferramenta projetada para lidar com grandes conjuntos de dados. Ele cria clusters em variáveis categóricas e contínuas.
Cluster hierárquico é o método mais usado de análise de cluster. Ele combina casos em clusters homogêneos, reunindo-os através de uma série de etapas seqüenciais.
A análise hierárquica de cluster contém três etapas
- Calcular a distância
- Vincular os clusters
- Escolhendo uma solução, selecionando o número certo de clusters
A seguir, são apresentadas as etapas para executar a análise de cluster hierárquico no SPSS.
- O primeiro passo é selecionar as variáveis que devem ser agrupadas. A caixa de diálogo abaixo explica isso para você
- Ao clicar na opção de estatísticas na caixa de diálogo acima, você receberá a caixa de diálogo onde deseja especificar a saída
- Nas plotagens da caixa de diálogo, adicione o dendrograma. Dendrograma é a representação gráfica do método hierárquico de análise de cluster. Ele mostra como os clusters são combinados a cada etapa até formar um único cluster.
- O método da caixa de diálogo é crucial. Você pode mencionar a distância e o método de agrupamento aqui. No SPSS, existem três medidas para o intervalo, contagens e dados binários.
- A Distância euclidiana ao quadrado é a soma das diferenças ao quadrado sem obter a raiz quadrada.
- Nas contagens, você pode selecionar entre as medidas Chi Square e Phi Square
- Na seção Binário, você tem muitas opções para escolher. A distância euclidiana ao quadrado é a melhor opção para usar.
- O próximo passo é escolher o método de cluster. É sempre recomendável usar o Single Linkage ou o vizinho mais próximo, pois ajuda facilmente a identificar os outliers. Depois que os outliers forem identificados, você poderá usar o Método de Ward.
- O último passo é a padronização
Críticas à Análise de Cluster
As críticas mais comuns estão listadas abaixo
- É descritivo, teórico e não inferencial.
- Produzirá clusters independentemente da existência real de qualquer estrutura
- Não pode ser utilizado amplamente, pois depende totalmente das variáveis utilizadas como base para a medida de similaridade
O que é análise fatorial?
A análise fatorial é uma análise exploratória que ajuda a agrupar variáveis semelhantes em dimensões. Pode ser usado para simplificar os dados, reduzindo as dimensões das observações. A análise fatorial possui vários métodos de rotação diferentes.
A análise fatorial é usada principalmente para fins de redução de dados.
Existem dois tipos de análise fatorial - exploratória e confirmatória
- O método exploratório é usado quando você não tem uma ideia predefinida sobre as estruturas ou dimensões em um conjunto de variáveis.
- O método confirmatório é usado quando você deseja testar hipóteses específicas sobre as estruturas ou dimensões em um conjunto de variáveis.
Objetivos da análise fatorial
Existem dois objetivos principais da análise fatorial mencionados abaixo
- Identificação dos fatores subjacentes - Isso inclui agrupar variáveis em conjuntos homogêneos, criar novas variáveis e ajudar a obter conhecimento sobre as categorias
- Triagem de variáveis - É útil na regressão e identifica agrupamentos para permitir que você selecione uma variável que represente muitas.
Pressupostos da análise fatorial
Existem quatro principais premissas de análise fatorial, que são mencionadas abaixo
- Os modelos geralmente são baseados em relacionamentos lineares
- Parte do princípio de que os dados coletados são dimensionados com intervalo
- A multicolinearidade nos dados é desejável, pois o objetivo é descobrir o conjunto inter-relacionado de variáveis
- Os dados devem estar abertos e responsivos à análise fatorial. Não deve ser de tal maneira que uma variável seja correlacionada apenas consigo mesma e não exista correlação com nenhuma outra variável. A análise fatorial não pode ser feita nesses dados.
Tipos de Factoring
- Factoring de componente principal - Método mais usado em que os pesos dos fatores são calculados para extrair a variação máxima possível e continuam até que não haja variação significativa.
- Análise fatorial canônica - Encontra fatores que têm a maior correlação canônica com as variáveis observadas
- Análise de fator comum - busca o menor número de fatores que podem explicar a variação comum de um conjunto de variáveis
- Factoring de imagem - Com base na matriz de correlação em que cada variável é prevista das outras usando regressão múltipla
- Alpha Factoring - Maximiza a confiabilidade dos fatores
- Modelo de regressão fatorial - combinação de modelo fatorial e modelo de regressão cujos fatores são parcialmente conhecidos
Critérios de análise fatorial
-
Critérios de autovalor
- Representa a quantidade de variação nas variáveis originais conectadas a um fator
- A soma do quadrado das cargas fatoriais de cada variável em um fator representa o valor próprio
- Fatores com valores próprios maiores que 1, 0 são mantidos
-
Critérios de plotagem de seixos
- Uma plotagem dos valores próprios em relação ao número de fatores, em ordem de extração.
- A forma do gráfico determina o número de fatores
-
Porcentagem de critérios de variação
- O número de fatores extraídos é encontrado para que o aumento da porcentagem de variação extraída pelos fatores atinja o nível de satisfação.
-
Critérios de Teste de Significância
- A importância estatística dos valores próprios separados é descoberta e apenas os fatores estatisticamente significativos são mantidos
A análise fatorial é usada em vários campos, como psicologia, sociologia, ciência política, educação e saúde mental.
Análise fatorial no SPSS
No SPSS, a opção de análise fatorial pode ser encontrada em Analisar à Redução de dimensão à Fator
- Comece adicionando as variáveis à seção lista de variáveis
- Clique na guia Descritivo e adicione algumas estatísticas sob as quais as suposições da análise fatorial são verificadas.
- Clique na opção Extração, que permitirá escolher o método de extração e cortar o valor da extração.
- Componentes Principais (PCA) é o método de extração padrão que extrai até combinações lineares não correlacionadas das variáveis. O PCA pode ser usado quando uma matriz de correlação é singular. É muito semelhante à Análise de Correlação Canônica, onde o primeiro fator tem variação máxima e os seguintes fatores explicam uma porção menor da variação.
- A segunda análise mais geral é a fatoração do eixo principal. Ele identifica as construções latentes por trás das observações.
- O próximo passo é selecionar um método de rotação. O método mais usado é o Varimax. Este método simplifica a interpretação dos fatores.
- O segundo método é o Quartimax. Este método gira os fatores para minimizar o número de fatores. Simplifica a interpretação da variável observada.
- O próximo método é o Equamax, que é uma combinação dos dois métodos acima.
- Na caixa de diálogo, clicando nas "opções", você pode gerenciar os valores ausentes
- Antes de salvar os resultados no conjunto de dados, primeiro execute a análise fatorial e verifique as suposições e confirme se os resultados são significativos e úteis.
Análise de Cluster vs Análise Fatorial
A análise de cluster e a análise fatorial são um método de aprendizado não supervisionado, usado para segmentação de dados. Muitos pesquisadores que são novos nesse campo acham que a análise de cluster e a análise fatorial são semelhantes. Pode parecer semelhante, mas eles diferem de várias maneiras. As diferenças entre análise de cluster e análise fatorial estão listadas abaixo
-
Objetivo
O objetivo da análise de cluster e fator é diferente. O objetivo da análise de cluster é dividir as observações em grupos homogêneos e distintos. A análise fatorial, por outro lado, explica a homogeneidade das variáveis resultantes da similaridade de valores.
-
Complexidade
A complexidade é outro fator em que as análises de cluster e fator diferem. O tamanho dos dados afeta a análise de maneira diferente. Se o tamanho dos dados for muito grande, ele se tornará computacionalmente intratável na análise de cluster.
-
Solução
A solução para um problema é mais ou menos semelhante na análise de fatores e de cluster. Mas a análise fatorial fornece uma solução melhor para o pesquisador em um aspecto melhor. A análise de cluster não produz o melhor resultado, pois todos os algoritmos na análise de cluster são computacionalmente ineficientes.
-
Formulários
A análise fatorial e a análise de cluster são aplicadas de maneira diferente aos dados reais. A análise fatorial é adequada para simplificar modelos complexos. Reduz o grande conjunto de variáveis para um conjunto muito menor de fatores. O pesquisador pode desenvolver um conjunto de hipóteses e executar a análise fatorial para confirmar ou negar essas hipóteses.
A análise de cluster é adequada para classificar objetos com base em determinados critérios. O pesquisador pode medir certos aspectos de um grupo e dividi-los em categorias específicas usando a análise de cluster.
Também existem muitas outras diferenças mencionadas abaixo
- A análise de cluster tenta agrupar casos, enquanto a análise fatorial tenta agrupar recursos.
- A análise de cluster é usada para encontrar grupos menores de casos que são representativos de um dado como um todo. A análise fatorial é usada para encontrar um grupo menor de recursos que são representativos dos recursos originais dos conjuntos de dados.
- A parte mais importante da análise de cluster é encontrar o número de clusters. Basicamente, os métodos de agrupamento são divididos em dois - método aglomerativo e método de particionamento. O método aglomerativo começa com cada caso em seu próprio cluster e para quando um critério é atingido. O método de particionamento começa com todos os casos em um cluster.
- A análise fatorial é usada para descobrir uma estrutura subjacente em um conjunto de dados.
Conclusão
Espero que este artigo tenha ajudado você a entender os conceitos básicos de análise de cluster e análise fatorial e as diferenças entre os dois.
Cursos relacionados: -
- Curso de Análise de Cluster