Introdução aos algoritmos de classificação
Este artigo sobre algoritmos de classificação apresenta uma visão geral dos diferentes métodos de classificação comumente usados em técnicas de mineração de dados com princípios diferentes. Classificação é uma técnica que categoriza os dados em um número distinto de classes e, por sua vez, o rótulo é atribuído a cada classe. O principal objetivo da classificação é identificar a classe para lançar novos dados, analisando o conjunto de treinamento, observando os limites adequados. De uma maneira geral, prever a classe de destino e o processo acima é chamado de classificação.
Por exemplo, a gerência do hospital registra o nome, endereço, idade e histórico anterior da saúde do paciente para diagnosticá-los, o que ajuda a classificá-los. Eles podem ser caracterizados em duas fases: uma fase de aprendizagem e uma fase de avaliação. A fase de aprendizado modela a base da abordagem com base em dados de treinamento, enquanto a fase de avaliação prediz a saída para os dados fornecidos. Poderíamos encontrar suas aplicações em spam por email, previsão de empréstimos bancários, reconhecimento de fala, análise de sentimentos. A técnica inclui a função matemática f com a entrada X e a saída Y.
Explicar os algoritmos de classificação em detalhes
A classificação pode ser realizada em dados estruturados e não estruturados. A classificação pode ser categorizada em
- Classificador Naive Bayes
- Árvores de decisão
- Máquina de vetores de suporte
- Random Forest
- K- Vizinhos mais próximos
1) Classificador Naive Bayes
É um algoritmo baseado no teorema de Bayes, uma das classificações estatísticas e requer poucas quantidades de dados de treinamento para estimar os parâmetros também conhecidos como classificadores probabilísticos. É considerado o classificador mais rápido, altamente escalável e lida com dados discretos e contínuos. Este algoritmo usado para fazer uma previsão em tempo real. Existem diferentes tipos de classificador ingênuo, Multinomial Naïve Bayes, Bernoulli Naïve Bayes, Gaussian.
A classificação bayesiana com probabilidades posteriores é dada por
Onde A, B são eventos, P (A | B) - Probabilidades posteriores.
Se dois valores são independentes um do outro,
P (A, B) = P (A) P (B)
Naïve Bayes pode ser construído usando a biblioteca python. Os preditores de Naïve são independentes, embora sejam usados em sistemas de recomendação. Eles são usados em muitas aplicações em tempo real e bem utilizados na classificação de documentos.
Vantagens:
As vantagens são que eles exigem muito menos poder computacional, assumido em problemas de previsão de várias classes, que trabalham com precisão em grandes conjuntos de dados.
Desvantagem:
A principal desvantagem desse classificador é que eles atribuem probabilidade zero. E eles têm recursos independentes dos outros.
2) Árvore de decisão
É um modelo de abordagem de cima para baixo, com a estrutura do fluxograma que lida com dados de alta dimensão. Os resultados são previstos com base na variável de entrada fornecida. Árvore de decisão composta pelos seguintes elementos: Uma raiz, muitos nós, ramos, folhas. O nó raiz faz a partição com base no valor do atributo da classe, o nó interno assume um atributo para classificação adicional, os ramos tomam uma regra de decisão para dividir os nós em nós folha, por fim, os nós folha nos dão o resultado final. A complexidade do tempo da árvore de decisão depende do número de registros e atributos dos dados de treinamento. Se a árvore de decisão for muito longa, é difícil obter os resultados desejados.
Vantagem: Eles são aplicados à análise preditiva para resolver os problemas e usados no dia-a-dia para escolher o destino com base na análise de decisão. Cria automaticamente um modelo com base nos dados de origem. Melhor na manipulação de valores ausentes.
Desvantagem: O tamanho da árvore é incontrolável até que ele tenha alguns critérios de parada. Devido à sua estrutura hierárquica, a árvore é instável.
3) Máquina de vetores de suporte
Esse algoritmo desempenha um papel vital nos problemas de classificação e, mais popularmente, em algoritmos supervisionados de aprendizado de máquina. É uma ferramenta importante usada pelo pesquisador e cientista de dados. Esse SVM é muito fácil e seu processo é encontrar um hiperplano em pontos de dados do espaço N-dimensional. Hiperplanos são limites de decisão que classificam os pontos de dados. Todo esse vetor fica mais próximo do hiperplano, maximizando a margem do classificador. Se a margem for máxima, o menor será o erro de generalização. Sua implementação pode ser feita com o kernel usando python com alguns conjuntos de dados de treinamento. O principal objetivo do SVM é treinar um objeto em uma classificação específica. O SVM não está restrito a se tornar um classificador linear. O SVM é preferido mais do que qualquer modelo de classificação devido à função do kernel, que melhora a eficiência computacional.
Vantagem: Eles são altamente preferíveis por seu menor poder computacional e precisão efetiva. Eficaz em espaço de alta dimensão, boa eficiência de memória.
Desvantagem: Limitações de velocidade, kernel e tamanho
4) Floresta aleatória
É um poderoso algoritmo de aprendizado de máquina baseado na abordagem de aprendizado do Ensemble. O componente básico da floresta Aleatória é a árvore de decisão usada para criar modelos preditivos. A demonstração do trabalho inclui a criação de uma floresta de árvores de decisão aleatória e o processo de poda é realizado através da definição de divisões de parada para obter um melhor resultado. A floresta aleatória é implementada usando uma técnica chamada ensacamento para tomada de decisão. Esse empacotamento evita o ajuste excessivo de dados, reduzindo o viés da mesma forma que esse aleatório pode obter melhor precisão. Uma previsão final é feita por uma média de muitas árvores de decisão, ou seja, previsões frequentes. A floresta aleatória inclui muitos casos de uso, como previsões do mercado de ações, detecção de fraude, previsões de notícias.
Vantagens:
- Não requer nenhum grande processamento para processar os conjuntos de dados e um modelo muito fácil de construir. Fornece maior precisão ajuda na resolução de problemas preditivos.
- Funciona bem no tratamento de valores ausentes e detecta automaticamente um erro externo.
Desvantagem:
- Requer alto custo computacional e alta memória.
- Requer muito mais período de tempo.
5) K- vizinhos mais próximos
Aqui discutiremos o algoritmo K-NN com o aprendizado supervisionado do CART. Eles usam K pequeno inteiro positivo; um objeto é atribuído à classe com base nos vizinhos ou, digamos, em um grupo, observando em que grupo o vizinho se encontra. Isto é escolhido pela medida de distância distância euclidiana e uma força bruta. O valor de K pode ser encontrado usando o processo de ajuste. O KNN não prefere aprender nenhum modelo para treinar um novo conjunto de dados e usar a normalização para redimensionar dados.
Vantagem: produz resultados efetivos se os dados de treinamento forem enormes.
Desvantagem: O maior problema é que, se a variável for pequena, ela funcionará bem. Em segundo lugar, escolhendo o fator K durante a classificação.
Conclusão
Concluindo, passamos pelas capacidades de diferentes algoritmos de classificação ainda atuando como uma ferramenta poderosa na engenharia de recursos, classificação de imagens que desempenha um grande recurso para o aprendizado de máquina. Os algoritmos de classificação são algoritmos poderosos que resolvem problemas difíceis.
Artigos recomendados
Este é um guia para algoritmos de classificação em aprendizado de máquina. Aqui discutimos que a classificação pode ser realizada em dados estruturados e não estruturados. Você também pode consultar nossos outros artigos sugeridos -
- Algoritmos de roteamento
- Algoritmo de cluster
- Processo de mineração de dados
- Algoritmos de aprendizado de máquina
- Técnicas mais usadas de aprendizagem por conjuntos
- Algoritmo C ++ | Exemplos de algoritmo C ++