Apresentando a melhor comparação da análise de cluster v / s Factor

Índice:

Anonim

O que é análise de cluster

A análise de cluster agrupa dados com base nas características que eles possuem. A análise de cluster agrupa objetos com base nos fatores que os tornam semelhantes. A análise de cluster também é chamada de análise de segmentação ou análise de taxonomia. A análise de cluster não diferencia variáveis ​​dependentes e independentes. A análise de cluster é usada em uma ampla variedade de campos, como psicologia, biologia, estatística, mineração de dados, reconhecimento de padrões e outras ciências sociais.

Objetivo da análise de cluster

O principal objetivo da análise de cluster é abordar a heterogeneidade em cada conjunto de dados. Os outros objetivos da análise de cluster são

  • Descrição da taxonomia - identificação de grupos nos dados
  • Simplificação de dados - A capacidade de analisar grupos de observações semelhantes em vez de todas as observações individuais
  • Geração ou teste de hipóteses - Desenvolva hipóteses com base na natureza dos dados ou para testar a hipótese declarada anteriormente
  • Identificação de relacionamento - a estrutura simplificada da análise de cluster que descreve os relacionamentos

Existem dois propósitos principais da análise de cluster - Entendimento e Utilidade.

Na circunstância de Entendimento, a análise de cluster agrupa objetos que compartilham algumas características comuns

No propósito do Utility, a análise de cluster fornece as características de cada objeto de dados aos clusters aos quais eles pertencem.

A análise de cluster anda de mãos dadas com a análise fatorial e análise discriminante.

Você deve se perguntar algumas questões de análise de cluster antes de começar com ela

  • Quais variáveis ​​são relevantes?
  • O tamanho da amostra é suficiente?
  • Os outliers podem ser detectados e devem ser removidos?
  • Como a similaridade de objetos deve ser medida?
  • Os dados devem ser padronizados?

Tipos de Clusters

Existem três tipos principais de cluster

  • Clustering hierárquico - que contém o método aglomerativo e divisivo
  • Clustering Particional - Contém K-Means, K Fuzzy K-Means, Isodata sob ele
  • Clustering Baseado em Densidade - Possui Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed

Suposições na análise de cluster

Sempre há duas suposições na análise de cluster

  • Supõe-se que a amostra seja um representante da população
  • Supõe-se que as variáveis ​​não estejam correlacionadas. Mesmo se as variáveis ​​estiverem correlacionadas, remova as variáveis ​​correlacionadas ou use medidas de distância que compensem a correlação.

Etapas na análise de cluster

    • Etapa 1: Definir o Problema
    • Etapa 2: decida a medida de similaridade apropriada
    • Etapa 3: decida como agrupar os objetos
    • Etapa 4: Decida o número de clusters
    • Etapa 5: interpretar, descrever e validar o cluster

Análise de cluster no SPSS

No SPSS, você pode encontrar a opção de análise de cluster na opção Analisar / Classificar. No SPSS, existem três métodos para a análise de cluster - K-Means Cluster, Hierarchical Cluster e Two Step Cluster.

O método de cluster K-Means classifica um determinado conjunto de dados por meio de um número fixo de clusters. Esse método é fácil de entender e fornece a melhor saída quando os dados estão bem separados um do outro.

A análise de cluster em duas etapas é uma ferramenta projetada para lidar com grandes conjuntos de dados. Ele cria clusters em variáveis ​​categóricas e contínuas.

Cluster hierárquico é o método mais usado de análise de cluster. Ele combina casos em clusters homogêneos, reunindo-os através de uma série de etapas seqüenciais.

A análise hierárquica de cluster contém três etapas

  • Calcular a distância
  • Vincular os clusters
  • Escolhendo uma solução, selecionando o número certo de clusters

A seguir, são apresentadas as etapas para executar a análise de cluster hierárquico no SPSS.

  • O primeiro passo é selecionar as variáveis ​​que devem ser agrupadas. A caixa de diálogo abaixo explica isso para você
  • Ao clicar na opção de estatísticas na caixa de diálogo acima, você receberá a caixa de diálogo onde deseja especificar a saída
  • Nas plotagens da caixa de diálogo, adicione o dendrograma. Dendrograma é a representação gráfica do método hierárquico de análise de cluster. Ele mostra como os clusters são combinados a cada etapa até formar um único cluster.
  • O método da caixa de diálogo é crucial. Você pode mencionar a distância e o método de agrupamento aqui. No SPSS, existem três medidas para o intervalo, contagens e dados binários.
  • A Distância euclidiana ao quadrado é a soma das diferenças ao quadrado sem obter a raiz quadrada.
  • Nas contagens, você pode selecionar entre as medidas Chi Square e Phi Square
  • Na seção Binário, você tem muitas opções para escolher. A distância euclidiana ao quadrado é a melhor opção para usar.
  • O próximo passo é escolher o método de cluster. É sempre recomendável usar o Single Linkage ou o vizinho mais próximo, pois ajuda facilmente a identificar os outliers. Depois que os outliers forem identificados, você poderá usar o Método de Ward.
  • O último passo é a padronização

Críticas à Análise de Cluster

As críticas mais comuns estão listadas abaixo

  • É descritivo, teórico e não inferencial.
  • Produzirá clusters independentemente da existência real de qualquer estrutura
  • Não pode ser utilizado amplamente, pois depende totalmente das variáveis ​​utilizadas como base para a medida de similaridade

O que é análise fatorial?

A análise fatorial é uma análise exploratória que ajuda a agrupar variáveis ​​semelhantes em dimensões. Pode ser usado para simplificar os dados, reduzindo as dimensões das observações. A análise fatorial possui vários métodos de rotação diferentes.

A análise fatorial é usada principalmente para fins de redução de dados.

Existem dois tipos de análise fatorial - exploratória e confirmatória

  • O método exploratório é usado quando você não tem uma ideia predefinida sobre as estruturas ou dimensões em um conjunto de variáveis.
  • O método confirmatório é usado quando você deseja testar hipóteses específicas sobre as estruturas ou dimensões em um conjunto de variáveis.

Objetivos da análise fatorial

Existem dois objetivos principais da análise fatorial mencionados abaixo

  • Identificação dos fatores subjacentes - Isso inclui agrupar variáveis ​​em conjuntos homogêneos, criar novas variáveis ​​e ajudar a obter conhecimento sobre as categorias
  • Triagem de variáveis - É útil na regressão e identifica agrupamentos para permitir que você selecione uma variável que represente muitas.

Pressupostos da análise fatorial

Existem quatro principais premissas de análise fatorial, que são mencionadas abaixo

  • Os modelos geralmente são baseados em relacionamentos lineares
  • Parte do princípio de que os dados coletados são dimensionados com intervalo
  • A multicolinearidade nos dados é desejável, pois o objetivo é descobrir o conjunto inter-relacionado de variáveis
  • Os dados devem estar abertos e responsivos à análise fatorial. Não deve ser de tal maneira que uma variável seja correlacionada apenas consigo mesma e não exista correlação com nenhuma outra variável. A análise fatorial não pode ser feita nesses dados.

Tipos de Factoring

  • Factoring de componente principal - Método mais usado em que os pesos dos fatores são calculados para extrair a variação máxima possível e continuam até que não haja variação significativa.
  • Análise fatorial canônica - Encontra fatores que têm a maior correlação canônica com as variáveis ​​observadas
  • Análise de fator comum - busca o menor número de fatores que podem explicar a variação comum de um conjunto de variáveis
  • Factoring de imagem - Com base na matriz de correlação em que cada variável é prevista das outras usando regressão múltipla
  • Alpha Factoring - Maximiza a confiabilidade dos fatores
  • Modelo de regressão fatorial - combinação de modelo fatorial e modelo de regressão cujos fatores são parcialmente conhecidos

Critérios de análise fatorial

  1. Critérios de autovalor

  • Representa a quantidade de variação nas variáveis ​​originais conectadas a um fator
  • A soma do quadrado das cargas fatoriais de cada variável em um fator representa o valor próprio
  • Fatores com valores próprios maiores que 1, 0 são mantidos
  1. Critérios de plotagem de seixos

  • Uma plotagem dos valores próprios em relação ao número de fatores, em ordem de extração.
  • A forma do gráfico determina o número de fatores
  1. Porcentagem de critérios de variação

  • O número de fatores extraídos é encontrado para que o aumento da porcentagem de variação extraída pelos fatores atinja o nível de satisfação.
  1. Critérios de Teste de Significância

  • A importância estatística dos valores próprios separados é descoberta e apenas os fatores estatisticamente significativos são mantidos

A análise fatorial é usada em vários campos, como psicologia, sociologia, ciência política, educação e saúde mental.

Análise fatorial no SPSS

No SPSS, a opção de análise fatorial pode ser encontrada em Analisar à Redução de dimensão à Fator

  • Comece adicionando as variáveis ​​à seção lista de variáveis
  • Clique na guia Descritivo e adicione algumas estatísticas sob as quais as suposições da análise fatorial são verificadas.
  • Clique na opção Extração, que permitirá escolher o método de extração e cortar o valor da extração.
  • Componentes Principais (PCA) é o método de extração padrão que extrai até combinações lineares não correlacionadas das variáveis. O PCA pode ser usado quando uma matriz de correlação é singular. É muito semelhante à Análise de Correlação Canônica, onde o primeiro fator tem variação máxima e os seguintes fatores explicam uma porção menor da variação.
  • A segunda análise mais geral é a fatoração do eixo principal. Ele identifica as construções latentes por trás das observações.
  • O próximo passo é selecionar um método de rotação. O método mais usado é o Varimax. Este método simplifica a interpretação dos fatores.
  • O segundo método é o Quartimax. Este método gira os fatores para minimizar o número de fatores. Simplifica a interpretação da variável observada.
  • O próximo método é o Equamax, que é uma combinação dos dois métodos acima.
  • Na caixa de diálogo, clicando nas "opções", você pode gerenciar os valores ausentes
  • Antes de salvar os resultados no conjunto de dados, primeiro execute a análise fatorial e verifique as suposições e confirme se os resultados são significativos e úteis.

Análise de Cluster vs Análise Fatorial

A análise de cluster e a análise fatorial são um método de aprendizado não supervisionado, usado para segmentação de dados. Muitos pesquisadores que são novos nesse campo acham que a análise de cluster e a análise fatorial são semelhantes. Pode parecer semelhante, mas eles diferem de várias maneiras. As diferenças entre análise de cluster e análise fatorial estão listadas abaixo

  • Objetivo

O objetivo da análise de cluster e fator é diferente. O objetivo da análise de cluster é dividir as observações em grupos homogêneos e distintos. A análise fatorial, por outro lado, explica a homogeneidade das variáveis ​​resultantes da similaridade de valores.

  • Complexidade

A complexidade é outro fator em que as análises de cluster e fator diferem. O tamanho dos dados afeta a análise de maneira diferente. Se o tamanho dos dados for muito grande, ele se tornará computacionalmente intratável na análise de cluster.

  • Solução

A solução para um problema é mais ou menos semelhante na análise de fatores e de cluster. Mas a análise fatorial fornece uma solução melhor para o pesquisador em um aspecto melhor. A análise de cluster não produz o melhor resultado, pois todos os algoritmos na análise de cluster são computacionalmente ineficientes.

  • Formulários

A análise fatorial e a análise de cluster são aplicadas de maneira diferente aos dados reais. A análise fatorial é adequada para simplificar modelos complexos. Reduz o grande conjunto de variáveis ​​para um conjunto muito menor de fatores. O pesquisador pode desenvolver um conjunto de hipóteses e executar a análise fatorial para confirmar ou negar essas hipóteses.

A análise de cluster é adequada para classificar objetos com base em determinados critérios. O pesquisador pode medir certos aspectos de um grupo e dividi-los em categorias específicas usando a análise de cluster.

Também existem muitas outras diferenças mencionadas abaixo

  • A análise de cluster tenta agrupar casos, enquanto a análise fatorial tenta agrupar recursos.
  • A análise de cluster é usada para encontrar grupos menores de casos que são representativos de um dado como um todo. A análise fatorial é usada para encontrar um grupo menor de recursos que são representativos dos recursos originais dos conjuntos de dados.
  • A parte mais importante da análise de cluster é encontrar o número de clusters. Basicamente, os métodos de agrupamento são divididos em dois - método aglomerativo e método de particionamento. O método aglomerativo começa com cada caso em seu próprio cluster e para quando um critério é atingido. O método de particionamento começa com todos os casos em um cluster.
  • A análise fatorial é usada para descobrir uma estrutura subjacente em um conjunto de dados.

Conclusão

Espero que este artigo tenha ajudado você a entender os conceitos básicos de análise de cluster e análise fatorial e as diferenças entre os dois.

Cursos relacionados: -

  1. Curso de Análise de Cluster