Introdução aos algoritmos de classificação

Este artigo sobre algoritmos de classificação apresenta uma visão geral dos diferentes métodos de classificação comumente usados ​​em técnicas de mineração de dados com princípios diferentes. Classificação é uma técnica que categoriza os dados em um número distinto de classes e, por sua vez, o rótulo é atribuído a cada classe. O principal objetivo da classificação é identificar a classe para lançar novos dados, analisando o conjunto de treinamento, observando os limites adequados. De uma maneira geral, prever a classe de destino e o processo acima é chamado de classificação.

Por exemplo, a gerência do hospital registra o nome, endereço, idade e histórico anterior da saúde do paciente para diagnosticá-los, o que ajuda a classificá-los. Eles podem ser caracterizados em duas fases: uma fase de aprendizagem e uma fase de avaliação. A fase de aprendizado modela a base da abordagem com base em dados de treinamento, enquanto a fase de avaliação prediz a saída para os dados fornecidos. Poderíamos encontrar suas aplicações em spam por email, previsão de empréstimos bancários, reconhecimento de fala, análise de sentimentos. A técnica inclui a função matemática f com a entrada X e a saída Y.

Explicar os algoritmos de classificação em detalhes

A classificação pode ser realizada em dados estruturados e não estruturados. A classificação pode ser categorizada em

  1. Classificador Naive Bayes
  2. Árvores de decisão
  3. Máquina de vetores de suporte
  4. Random Forest
  5. K- Vizinhos mais próximos

1) Classificador Naive Bayes

É um algoritmo baseado no teorema de Bayes, uma das classificações estatísticas e requer poucas quantidades de dados de treinamento para estimar os parâmetros também conhecidos como classificadores probabilísticos. É considerado o classificador mais rápido, altamente escalável e lida com dados discretos e contínuos. Este algoritmo usado para fazer uma previsão em tempo real. Existem diferentes tipos de classificador ingênuo, Multinomial Naïve Bayes, Bernoulli Naïve Bayes, Gaussian.

A classificação bayesiana com probabilidades posteriores é dada por

Onde A, B são eventos, P (A | B) - Probabilidades posteriores.

Se dois valores são independentes um do outro,

P (A, B) = P (A) P (B)

Naïve Bayes pode ser construído usando a biblioteca python. Os preditores de Naïve são independentes, embora sejam usados ​​em sistemas de recomendação. Eles são usados ​​em muitas aplicações em tempo real e bem utilizados na classificação de documentos.

Vantagens:

As vantagens são que eles exigem muito menos poder computacional, assumido em problemas de previsão de várias classes, que trabalham com precisão em grandes conjuntos de dados.

Desvantagem:

A principal desvantagem desse classificador é que eles atribuem probabilidade zero. E eles têm recursos independentes dos outros.

2) Árvore de decisão

É um modelo de abordagem de cima para baixo, com a estrutura do fluxograma que lida com dados de alta dimensão. Os resultados são previstos com base na variável de entrada fornecida. Árvore de decisão composta pelos seguintes elementos: Uma raiz, muitos nós, ramos, folhas. O nó raiz faz a partição com base no valor do atributo da classe, o nó interno assume um atributo para classificação adicional, os ramos tomam uma regra de decisão para dividir os nós em nós folha, por fim, os nós folha nos dão o resultado final. A complexidade do tempo da árvore de decisão depende do número de registros e atributos dos dados de treinamento. Se a árvore de decisão for muito longa, é difícil obter os resultados desejados.

Vantagem: Eles são aplicados à análise preditiva para resolver os problemas e usados ​​no dia-a-dia para escolher o destino com base na análise de decisão. Cria automaticamente um modelo com base nos dados de origem. Melhor na manipulação de valores ausentes.

Desvantagem: O tamanho da árvore é incontrolável até que ele tenha alguns critérios de parada. Devido à sua estrutura hierárquica, a árvore é instável.

3) Máquina de vetores de suporte

Esse algoritmo desempenha um papel vital nos problemas de classificação e, mais popularmente, em algoritmos supervisionados de aprendizado de máquina. É uma ferramenta importante usada pelo pesquisador e cientista de dados. Esse SVM é muito fácil e seu processo é encontrar um hiperplano em pontos de dados do espaço N-dimensional. Hiperplanos são limites de decisão que classificam os pontos de dados. Todo esse vetor fica mais próximo do hiperplano, maximizando a margem do classificador. Se a margem for máxima, o menor será o erro de generalização. Sua implementação pode ser feita com o kernel usando python com alguns conjuntos de dados de treinamento. O principal objetivo do SVM é treinar um objeto em uma classificação específica. O SVM não está restrito a se tornar um classificador linear. O SVM é preferido mais do que qualquer modelo de classificação devido à função do kernel, que melhora a eficiência computacional.

Vantagem: Eles são altamente preferíveis por seu menor poder computacional e precisão efetiva. Eficaz em espaço de alta dimensão, boa eficiência de memória.

Desvantagem: Limitações de velocidade, kernel e tamanho

4) Floresta aleatória

É um poderoso algoritmo de aprendizado de máquina baseado na abordagem de aprendizado do Ensemble. O componente básico da floresta Aleatória é a árvore de decisão usada para criar modelos preditivos. A demonstração do trabalho inclui a criação de uma floresta de árvores de decisão aleatória e o processo de poda é realizado através da definição de divisões de parada para obter um melhor resultado. A floresta aleatória é implementada usando uma técnica chamada ensacamento para tomada de decisão. Esse empacotamento evita o ajuste excessivo de dados, reduzindo o viés da mesma forma que esse aleatório pode obter melhor precisão. Uma previsão final é feita por uma média de muitas árvores de decisão, ou seja, previsões frequentes. A floresta aleatória inclui muitos casos de uso, como previsões do mercado de ações, detecção de fraude, previsões de notícias.

Vantagens:

  • Não requer nenhum grande processamento para processar os conjuntos de dados e um modelo muito fácil de construir. Fornece maior precisão ajuda na resolução de problemas preditivos.
  • Funciona bem no tratamento de valores ausentes e detecta automaticamente um erro externo.

Desvantagem:

  • Requer alto custo computacional e alta memória.
  • Requer muito mais período de tempo.

5) K- vizinhos mais próximos

Aqui discutiremos o algoritmo K-NN com o aprendizado supervisionado do CART. Eles usam K pequeno inteiro positivo; um objeto é atribuído à classe com base nos vizinhos ou, digamos, em um grupo, observando em que grupo o vizinho se encontra. Isto é escolhido pela medida de distância distância euclidiana e uma força bruta. O valor de K pode ser encontrado usando o processo de ajuste. O KNN não prefere aprender nenhum modelo para treinar um novo conjunto de dados e usar a normalização para redimensionar dados.

Vantagem: produz resultados efetivos se os dados de treinamento forem enormes.

Desvantagem: O maior problema é que, se a variável for pequena, ela funcionará bem. Em segundo lugar, escolhendo o fator K durante a classificação.

Conclusão

Concluindo, passamos pelas capacidades de diferentes algoritmos de classificação ainda atuando como uma ferramenta poderosa na engenharia de recursos, classificação de imagens que desempenha um grande recurso para o aprendizado de máquina. Os algoritmos de classificação são algoritmos poderosos que resolvem problemas difíceis.

Artigos recomendados

Este é um guia para algoritmos de classificação em aprendizado de máquina. Aqui discutimos que a classificação pode ser realizada em dados estruturados e não estruturados. Você também pode consultar nossos outros artigos sugeridos -

  1. Algoritmos de roteamento
  2. Algoritmo de cluster
  3. Processo de mineração de dados
  4. Algoritmos de aprendizado de máquina
  5. Técnicas mais usadas de aprendizagem por conjuntos
  6. Algoritmo C ++ | Exemplos de algoritmo C ++

Categoria: