Diferença entre regressão e classificação
Neste artigo Regressão x Classificação, vamos discutir as principais diferenças entre Regressão e Classificação. O aprendizado de máquina é amplamente dividido em dois tipos: aprendizado de máquina supervisionado e aprendizado de máquina não supervisionado. No aprendizado de máquina supervisionado, temos um valor de saída conhecido no conjunto de dados e treinamos o modelo com base neles e o usamos para previsão, enquanto no aprendizado de máquina não supervisionado não temos um conjunto conhecido de valores de saída. Antes de diferenciar entre Classificação e Regressão, vamos entender o que essa terminologia significa no Machine Learning. A regressão é um algoritmo no aprendizado de máquina supervisionado que pode ser treinado para prever saídas de números reais. A classificação é um algoritmo no aprendizado de máquina supervisionado, treinado para identificar categorias e prever em qual categoria elas caem em novos valores.
Comparação cara a cara entre regressão x classificação (infográficos)
Abaixo está a comparação dos 5 principais entre regressão e classificação :
Principais diferenças entre regressão e classificação
Vamos discutir algumas diferenças importantes entre regressão versus classificação nos seguintes pontos:
- Classificação tem tudo a ver com a previsão de um rótulo ou categoria. O algoritmo de classificação classifica o conjunto de dados necessário em um de dois ou mais rótulos, um algoritmo que lida com duas classes ou categorias é conhecido como classificador binário e, se houver mais de duas classes, pode ser chamado de algoritmo de classificação de várias classes.
- Regressão é encontrar uma função ideal para identificar os dados de valores reais contínuos e fazer previsões dessa quantidade. A regressão com várias variáveis como entrada ou recursos para treinar o algoritmo é conhecida como um problema de regressão multivariada. Se no problema de regressão, os valores de entrada são dependentes ou ordenados por tempo, então é conhecido como problema de previsão de séries temporais.
- No entanto, o modelo de classificação também preverá um valor contínuo que é a probabilidade de ocorrer o evento pertencente à respectiva classe de saída. Aqui, a probabilidade de evento representa a probabilidade de um determinado exemplo pertencer a uma classe específica. O valor da probabilidade prevista pode ser convertido em um valor de classe, selecionando o rótulo da classe que tem a maior probabilidade.
- Vamos entender melhor isso vendo um exemplo, supondo que estamos treinando o modelo para prever se uma pessoa está tendo câncer ou não com base em alguns recursos. Se obtivermos a probabilidade de uma pessoa ter câncer como 0, 8 e não ter câncer como 0, 2, podemos converter a probabilidade de 0, 8 em um rótulo de classe com câncer, pois tem a maior probabilidade.
- Conforme mencionado acima na classificação, para verificar o desempenho do modelo de classificação, calculamos a precisão. Vamos ver como o cálculo é realizado, a precisão na classificação pode ser realizada considerando a proporção entre as previsões corretas e as previsões totais multiplicadas por 100. Se houver 50 previsões feitas, 10 delas corretas e 40 incorretas, a precisão será 20 %
Precisão = (Número de previsões corretas / Número total de previsões) * (100)
- Precisão = (10/50) * (100)
- Precisão = 20%
- Como mencionado acima na regressão, para ver o quão bom o modelo de regressão está executando da maneira mais popular é calcular o erro quadrático médio da raiz (RMSE). Vamos ver como o cálculo será realizado.
O valor previsto do modelo de regressão é 4, 9, enquanto o valor real é 5, 3.
O valor previsto do modelo de regressão é 2, 3, enquanto o valor real é 2, 1.
O valor previsto do modelo de regressão é 3, 4, enquanto o valor real é 2, 9.
Agora, Raiz significa que o erro quadrado pode ser calculado usando a fórmula.
O erro ao quadrado é (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25
Média do erro ao quadrado = 0, 45 / 3 = 0, 15
Erro quadrático médio da raiz = raiz quadrada de 0, 15 = 0, 38
Isso é RMSE = 0, 38. Existem muitos outros métodos para calcular a eficiência do modelo, mas o RMSE é o mais usado porque o RMSE oferece a pontuação de erro nas mesmas unidades que o valor previsto.
Exemplos:
A maioria dos engenheiros cientistas de dados acha difícil escolher uma entre regressão e classificação no estágio inicial de suas carreiras. Para facilitar, vamos ver como são os problemas de classificação e como os problemas de regressão,
Classificação
- Prever se vai chover ou não amanhã.
- Prever que uma pessoa deve comprar esse bem ou não obter lucro.
- Prever se uma pessoa tem uma doença ou não.
Se você observar para cada situação aqui, pode haver um Sim ou Não como um valor previsto de saída.
Regressão
- Prevendo o preço da terra.
- Prevendo o preço das ações.
Se você observar para cada situação aqui, a maioria delas tem valor numérico como a saída prevista.
Tabela de comparação de regressão versus classificação
A tabela abaixo resume as comparações entre Regressão x Classificação :
Parâmetro | Regressão |
Classificação |
Tipo de função de mapeamento | Nesses algoritmos, a função de mapeamento será escolhida do tipo que pode alinhar os valores à saída contínua. | Nesses algoritmos, a função de mapeamento será escolhida do tipo que pode alinhar os valores às classes predefinidas. |
Envolve previsão | Para esse tipo de algoritmo, os dados previstos pertencem à categoria de valores contínuos.
(Como 23, 34, 45, 67, 28) | Para esse tipo de dados previstos do algoritmo, pertence à categoria de valores discretos.
(Como Sim ou Não, Pertence a A ou B ou C). |
Método de Cálculo | O erro quadrático médio da raiz será calculado para identificar o melhor ajuste do conjunto de dados. | A precisão será calculada para identificar o melhor ajuste do conjunto de dados. |
Natureza dos dados previstos | A natureza dos dados previstos é ordenada. (Ou seja, os valores previstos estarão em alguma sequência). | A natureza dos dados previstos não é ordenada. (Ou seja, os valores previstos não estarão em nenhuma sequência). |
Algoritmos | Suporta Regressão de Vetor e Árvores de Regressão também são conhecidas como Floresta Aleatória, que são alguns dos exemplos populares de algoritmos de Regressão. | Naive Bayes, árvores de decisão e K vizinhos mais próximos são alguns dos exemplos populares de algoritmos de classificação. |
Conclusão
Essas são algumas das principais diferenças entre classificação e regressão. Em alguns casos, os valores de saída contínuos previstos na regressão podem ser agrupados em rótulos e alterados em modelos de classificação. Portanto, precisamos entender claramente qual escolher com base na situação e qual queremos que seja o resultado previsto.
Artigos recomendados
Este é um guia para a principal diferença entre Regressão x Classificação. Aqui também discutimos as principais diferenças entre regressão e classificação com infográficos e tabela de comparação. Você também pode consultar os seguintes artigos para saber mais -
- Os 7 principais tipos de codificação
- O que é StringBuilder em C # com vantagens
- StringBuffer vs StringBuilder | Comparação Top 4
- Principais diferenças - Jira vs Github
- O que é análise de regressão?
- Regressão multivariada
- Algoritmos de classificação
- Criar árvore de decisão com vantagens