Regressão linear vs regressão logística - As 6 principais diferenças a aprender

Índice:

Anonim

Diferença entre regressão linear vs regressão logística

O artigo a seguir Regressão linear versus regressão logística fornece as diferenças mais importantes entre os dois, mas antes de vermos o que significa Regressão?

Regressão

A regressão é basicamente uma medida estatística para determinar a força do relacionamento entre uma variável dependente, ou seja, a saída Y e uma série de outras variáveis ​​independentes, como X 1, X 2 e assim por diante. A análise de regressão é basicamente usada para previsão e previsão.

O que é regressão linear?

A regressão linear é um algoritmo baseado no domínio de aprendizado supervisionado do aprendizado de máquina. Ele herda uma relação linear entre suas variáveis ​​de entrada e a variável de saída única, onde a variável de saída é de natureza contínua. É usado para prever o valor da saída, digamos Y, das entradas, digamos X. Quando apenas uma entrada é considerada, isso é chamado de regressão linear simples.

Pode ser classificado em duas categorias principais:

1. Regressão Simples

Principal da operação: O objetivo principal é descobrir a equação de uma linha reta que melhor se ajuste aos dados amostrados. Esta equação descreve algebricamente a relação entre as duas variáveis. A linha reta de melhor ajuste é chamada de linha de regressão.

Y = β 0 + β 1 X

Onde,

β representa os recursos

β 0 representa a interceptação

β 1 representa o coeficiente da característica X

2. Regressão multivariável

É usado para prever uma correlação entre mais de uma variável independente e uma variável dependente. A regressão com mais de duas variáveis ​​independentes é baseada na forma de ajuste da constelação de dados em um gráfico multidimensional. A forma da regressão deve ser tal que minimize a distância da forma de cada ponto de dados.

Um modelo de relacionamento linear pode ser representado matematicamente como abaixo:

Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ……. + β n X n

Onde,

β representa os recursos

β 0 representa a interceptação

β 1 representa o coeficiente da característica X 1

β n representa o coeficiente da característica X n

Vantagens e desvantagens da regressão linear

Abaixo estão as vantagens e desvantagens:

Vantagens

  • Devido à sua simplicidade, é amplamente utilizado como modelagem para previsões e inferências.
  • Ele se concentra na análise e no pré-processamento de dados. Portanto, ele lida com dados diferentes sem se preocupar com os detalhes do modelo.

Desvantagens

  • Funciona eficientemente quando os dados são normalmente distribuídos. Assim, para modelagem eficiente, a colinearidade deve ser evitada.

O que é regressão logística?

É uma forma de regressão que permite a previsão de variáveis ​​discretas através de uma mistura de preditores contínuos e discretos. Isso resulta em uma transformação única de variáveis ​​dependentes que afeta não apenas o processo de estimativa, mas também os coeficientes de variáveis ​​independentes. Ele aborda a mesma questão que a regressão múltipla faz, mas sem suposições distributivas nos preditores. Na regressão logística, a variável de resultado é binária. O objetivo da análise é avaliar os efeitos de múltiplas variáveis ​​explicativas, que podem ser numéricas ou categóricas ou ambas.

Tipos de regressão logística

Abaixo estão os 2 tipos de regressão logística:

1. Regressão logística binária

É usado quando a variável dependente é dicotômica, ou seja, como uma árvore com dois ramos. É usado quando a variável dependente não é paramétrica.

Usado quando

  • Se não houver linearidade
  • Existem apenas dois níveis da variável dependente.
  • Se a normalidade multivariada é duvidosa.

2. Regressão Logística Multinomial

A análise de regressão logística multinomial requer que as variáveis ​​independentes sejam métricas ou dicotômicas. Ele não faz nenhuma suposição de linearidade, normalidade e homogeneidade de variância para as variáveis ​​independentes.

É usado quando a variável dependente possui mais de duas categorias. É usado para analisar relações entre uma variável dependente não-métrica e variáveis ​​independentes métricas ou dicotômicas, e então compara vários grupos através de uma combinação de regressões logísticas binárias. No final, ele fornece um conjunto de coeficientes para cada uma das duas comparações. Os coeficientes para o grupo de referência são considerados zeros. Finalmente, a previsão é feita com base na maior probabilidade resultante.

Vantagem da regressão logística: é uma técnica muito eficiente e amplamente utilizada, pois não requer muitos recursos computacionais e não requer nenhum ajuste.

Desvantagem da regressão logística: não pode ser usada para resolver problemas não lineares.

Comparação cara a cara entre Regressão Linear vs Regressão Logística (Infográficos)

Abaixo estão as 6 principais diferenças entre regressão linear e regressão logística

Diferença chave entre regressão linear e regressão logística

Vamos discutir algumas das principais diferenças principais entre regressão linear e regressão logística

Regressão linear

  • É uma abordagem linear
  • Ele usa uma linha reta
  • Não pode levar variáveis ​​categóricas
  • Ele deve ignorar observações com valores ausentes da variável independente numérica
  • A saída Y é dada como

  • 1 aumento unitário em x aumenta Y em α

Formulários

  • Prevendo o preço de um produto
  • Previsão de pontuação em uma partida

Regressão logística

  • É uma abordagem estatística
  • Ele usa uma função sigmóide
  • Pode levar variáveis ​​categóricas
  • Pode tomar decisões mesmo se houver observações com valores ausentes
  • A saída Y é dada como, onde z é dada como

  • 1 aumento unitário em x aumenta Y pelas probabilidades logarítmicas de α
  • Se P é a probabilidade de um evento, então (1-P) é a probabilidade de ele não ocorrer. Probabilidades de sucesso = P / 1-P

Formulários

  • Prevendo se hoje vai chover ou não.
  • Prever se um email é spam ou não.

Tabela de comparação de regressão linear vs regressão logística

Vamos discutir a melhor comparação entre regressão linear versus regressão logística

Regressão linear

Regressão logística

É usado para resolver problemas de regressãoÉ usado para resolver problemas de classificação
Ele modela o relacionamento entre uma variável dependente e uma ou mais variáveis ​​independentesEle prevê a probabilidade de um resultado que pode ter apenas dois valores na saída, 0 ou 1
A saída prevista é uma variável contínuaA saída prevista é uma variável discreta
A saída prevista Y pode exceder a faixa de 0 e 1A saída prevista Y está dentro dos limites de 0 e 1
A saída prevista Y pode exceder a faixa de 0 e 1Saída prevista

Conclusão

Se os recursos não contribuem para a previsão ou se estão muito correlacionados entre si, isso adiciona ruído ao modelo. Portanto, os recursos que não contribuem o suficiente para o modelo devem ser removidos. Se variáveis ​​independentes são altamente correlacionadas, isso pode causar um problema de multicolinearidade, que pode ser resolvido executando modelos separados com cada variável independente.

Artigos recomendados

Este foi um guia para regressão linear versus regressão logística. Aqui discutimos as principais diferenças entre regressão linear e regressão logística com infográficos e tabela de comparação. Você também pode dar uma olhada nos seguintes artigos para saber mais:

  1. Data Science vs Visualização de Dados
  2. Aprendizado de máquina versus rede neural
  3. Aprendizado supervisionado versus aprendizado profundo
  4. Regressão logística em R