Regressão vs Classificação - Principais diferenças e comparação

Diferença entre regressão e classificação

Neste artigo Regressão x Classificação, vamos discutir as principais diferenças entre Regressão e Classificação. O aprendizado de máquina é amplamente dividido em dois tipos: aprendizado de máquina supervisionado e aprendizado de máquina não supervisionado. No aprendizado de máquina supervisionado, temos um valor de saída conhecido no conjunto de dados e treinamos o modelo com base neles e o usamos para previsão, enquanto no aprendizado de máquina não supervisionado não temos um conjunto conhecido de valores de saída. Antes de diferenciar entre Classificação e Regressão, vamos entender o que essa terminologia significa no Machine Learning. A regressão é um algoritmo no aprendizado de máquina supervisionado que pode ser treinado para prever saídas de números reais. A classificação é um algoritmo no aprendizado de máquina supervisionado, treinado para identificar categorias e prever em qual categoria elas caem em novos valores.

Comparação cara a cara entre regressão x classificação (infográficos)

Abaixo está a comparação dos 5 principais entre regressão e classificação :

Principais diferenças entre regressão e classificação

Vamos discutir algumas diferenças importantes entre regressão versus classificação nos seguintes pontos:

Classificação tem tudo a ver com a previsão de um rótulo ou categoria. O algoritmo de classificação classifica o conjunto de dados necessário em um de dois ou mais rótulos, um algoritmo que lida com duas classes ou categorias é conhecido como classificador binário e, se houver mais de duas classes, pode ser chamado de algoritmo de classificação de várias classes.
Regressão é encontrar uma função ideal para identificar os dados de valores reais contínuos e fazer previsões dessa quantidade. A regressão com várias variáveis como entrada ou recursos para treinar o algoritmo é conhecida como um problema de regressão multivariada. Se no problema de regressão, os valores de entrada são dependentes ou ordenados por tempo, então é conhecido como problema de previsão de séries temporais.
No entanto, o modelo de classificação também preverá um valor contínuo que é a probabilidade de ocorrer o evento pertencente à respectiva classe de saída. Aqui, a probabilidade de evento representa a probabilidade de um determinado exemplo pertencer a uma classe específica. O valor da probabilidade prevista pode ser convertido em um valor de classe, selecionando o rótulo da classe que tem a maior probabilidade.
Vamos entender melhor isso vendo um exemplo, supondo que estamos treinando o modelo para prever se uma pessoa está tendo câncer ou não com base em alguns recursos. Se obtivermos a probabilidade de uma pessoa ter câncer como 0, 8 e não ter câncer como 0, 2, podemos converter a probabilidade de 0, 8 em um rótulo de classe com câncer, pois tem a maior probabilidade.
Conforme mencionado acima na classificação, para verificar o desempenho do modelo de classificação, calculamos a precisão. Vamos ver como o cálculo é realizado, a precisão na classificação pode ser realizada considerando a proporção entre as previsões corretas e as previsões totais multiplicadas por 100. Se houver 50 previsões feitas, 10 delas corretas e 40 incorretas, a precisão será 20 %

Precisão = (Número de previsões corretas / Número total de previsões) * (100)

Precisão = (10/50) * (100)
Precisão = 20%

Como mencionado acima na regressão, para ver o quão bom o modelo de regressão está executando da maneira mais popular é calcular o erro quadrático médio da raiz (RMSE). Vamos ver como o cálculo será realizado.

O valor previsto do modelo de regressão é 4, 9, enquanto o valor real é 5, 3.

O valor previsto do modelo de regressão é 2, 3, enquanto o valor real é 2, 1.

O valor previsto do modelo de regressão é 3, 4, enquanto o valor real é 2, 9.

Agora, Raiz significa que o erro quadrado pode ser calculado usando a fórmula.

O erro ao quadrado é (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Média do erro ao quadrado = 0, 45 / 3 = 0, 15

Erro quadrático médio da raiz = raiz quadrada de 0, 15 = 0, 38

Isso é RMSE = 0, 38. Existem muitos outros métodos para calcular a eficiência do modelo, mas o RMSE é o mais usado porque o RMSE oferece a pontuação de erro nas mesmas unidades que o valor previsto.

Exemplos:

A maioria dos engenheiros cientistas de dados acha difícil escolher uma entre regressão e classificação no estágio inicial de suas carreiras. Para facilitar, vamos ver como são os problemas de classificação e como os problemas de regressão,

Classificação

Prever se vai chover ou não amanhã.
Prever que uma pessoa deve comprar esse bem ou não obter lucro.
Prever se uma pessoa tem uma doença ou não.

Se você observar para cada situação aqui, pode haver um Sim ou Não como um valor previsto de saída.

Regressão

Prevendo o preço da terra.
Prevendo o preço das ações.

Se você observar para cada situação aqui, a maioria delas tem valor numérico como a saída prevista.

Tabela de comparação de regressão versus classificação

A tabela abaixo resume as comparações entre Regressão x Classificação :

Parâmetro	Regressão	Classificação
Tipo de função de mapeamento	Nesses algoritmos, a função de mapeamento será escolhida do tipo que pode alinhar os valores à saída contínua.	Nesses algoritmos, a função de mapeamento será escolhida do tipo que pode alinhar os valores às classes predefinidas.
Envolve previsão	Para esse tipo de algoritmo, os dados previstos pertencem à categoria de valores contínuos. (Como 23, 34, 45, 67, 28)	Para esse tipo de dados previstos do algoritmo, pertence à categoria de valores discretos. (Como Sim ou Não, Pertence a A ou B ou C).
Método de Cálculo	O erro quadrático médio da raiz será calculado para identificar o melhor ajuste do conjunto de dados.	A precisão será calculada para identificar o melhor ajuste do conjunto de dados.
Natureza dos dados previstos	A natureza dos dados previstos é ordenada. (Ou seja, os valores previstos estarão em alguma sequência).	A natureza dos dados previstos não é ordenada. (Ou seja, os valores previstos não estarão em nenhuma sequência).
Algoritmos	Suporta Regressão de Vetor e Árvores de Regressão também são conhecidas como Floresta Aleatória, que são alguns dos exemplos populares de algoritmos de Regressão.	Naive Bayes, árvores de decisão e K vizinhos mais próximos são alguns dos exemplos populares de algoritmos de classificação.

Conclusão

Essas são algumas das principais diferenças entre classificação e regressão. Em alguns casos, os valores de saída contínuos previstos na regressão podem ser agrupados em rótulos e alterados em modelos de classificação. Portanto, precisamos entender claramente qual escolher com base na situação e qual queremos que seja o resultado previsto.

Artigos recomendados

Este é um guia para a principal diferença entre Regressão x Classificação. Aqui também discutimos as principais diferenças entre regressão e classificação com infográficos e tabela de comparação. Você também pode consultar os seguintes artigos para saber mais -