Introdução à Análise de Regressão
A análise de regressão é um algoritmo de modelagem preditiva para prever o resultado de uma variável e identificar as variáveis (variáveis independentes) que contribuem para ou dependem da variável de resultado (variável de destino ou variável dependente). Em termos simples, é uma técnica para encontrar a relação entre as variáveis independentes e dependentes para produzir o resultado. É simples de usar e interpretar o resultado. Existem muitos tipos de técnicas de regressão amplamente utilizadas em vários setores. Alguns dos exemplos de regressão são prever o salário de um funcionário ou a receita de uma empresa em um ano.
Como a análise de regressão funcionou?
Existem muitos tipos de técnicas de regressão que são usadas considerando diferentes fatores e resultados.
- Regressão linear
- Regressão logística
- Regressão Lasso / Ridge
- Regressão polinomial
Alguns dos importantes testes de regressão estatística usados em vários setores são apresentados abaixo:
1. Regressão Linear
Isso é usado quando a variável de resultado é linearmente dependente das variáveis independentes. É normalmente usado quando não temos um grande conjunto de dados. Também é sensível a outliers, portanto, se o conjunto de dados contiver outliers, é melhor tratá-los antes de aplicar a regressão linear. Existem técnicas de regressão única e multivariável. Regressão linear simples é a análise quando a variável de resultado é linearmente dependente de uma única variável independente. A regressão linear simples segue a equação de uma linha reta que é dada abaixo:
Y=mx+c
Onde,
Y = Meta, Dependente ou Variável de Critério
x = variável independente ou preditora
m = Coeficiente de Inclinação ou Regressão
c = constante
A regressão linear multivariável define a relação entre a variável de resultado e mais de uma variável independente. Segue a equação abaixo de uma linha reta em que variáveis dependentes são a combinação linear de todas as variáveis independentes:
Y= m1x1+m2x2+m3x3+…mnan+c
Onde,
Y = Meta, Dependente ou Variável de Critério
x1, x2, x3… xn = Variáveis independentes ou preditoras
m1, m2, m3… mn = Coeficientes de inclinação ou regressão das respectivas variáveis
c = constante
A regressão linear segue o princípio do método dos mínimos quadrados. Este método afirma que uma linha de melhor ajuste é escolhida minimizando a soma do erro quadrado. A linha de melhor ajuste é escolhida onde a soma do erro quadrado entre os dados observados e a linha é mínima.
Existem algumas suposições que devem ser atendidas antes de aplicar a regressão linear no conjunto de dados.
- Deve haver uma relação linear entre variáveis independentes e dependentes.
- Deve haver pouca ou pouca multicolinearidade entre as variáveis independentes. Multicolinearidade é definida como um fenômeno em que existe uma alta correlação entre as variáveis independentes. Podemos tratar a multicolinearidade descartando uma variável correlacionada ou tratando duas variáveis como uma variável.
- Homocedasticidade: é definido como um estado em que os termos de erro devem ser distribuídos aleatoriamente pela linha na análise de regressão. Não deve haver nenhum padrão na linha se houver algum padrão identificado que os dados sejam considerados heterocedásticos.
- Todas as variáveis devem ser normalmente distribuídas, o que vemos plotando um gráfico QQ. Se os dados não forem normalmente distribuídos, podemos usar qualquer método de transformação não linear para tratá-los.
Portanto, é sempre aconselhável testar as premissas enquanto aplica a regressão linear para obter boa precisão e resultado correto.
2. Regressão logística
Essa técnica de regressão é usada quando a variável de destino ou resultado é de natureza categórica ou binária. A principal diferença entre regressão linear e logística está na variável alvo, na regressão linear, deve ser contínua, enquanto na logística deve ser categórica. A variável de resultado deve ter apenas duas classes, não mais que isso. Alguns exemplos são filtros de spam em e-mails (spam ou não), detecção de fraude (Fraude / Não Fraude), etc. Ele funciona com base no princípio da probabilidade. Pode ser classificado em duas categorias, definindo o valor limite.
Por exemplo: Se houver duas categorias A, B e definirmos o valor limite como 0, 5, a probabilidade acima de 0, 5 será considerada como uma categoria e abaixo de 0, 5 será outra categoria. A regressão logística segue uma curva em forma de S. Antes de construir o modelo de regressão logística, precisamos dividir o conjunto de dados em treinamento e teste. Como a variável de destino é categórica ou binária, precisamos garantir que haja um equilíbrio de classe adequado no conjunto de treinamento. Se houver desequilíbrio de classe, isso poderá ser tratado usando vários métodos, conforme mencionado abaixo:
- Amostragem ascendente: nesta técnica, a classe que possui menos linhas é amostrada para corresponder ao número de linhas da classe majoritária.
- Amostragem descendente: nesta técnica, a classe que tem mais linhas é amostrada para corresponder ao número de linhas da classe minoritária.
Existem alguns pontos importantes que são importantes para entender antes de aplicar o modelo de regressão logística aos conjuntos de dados:
- A variável de destino deve ser de natureza binária. Se houver mais de 2 classes na variável de destino, isso será conhecido como Regressão Logística Multinomial .
- Deve haver pouca ou pouca multicolinearidade entre as variáveis independentes.
- Requer um tamanho de amostra enorme para funcionar.
- Deve haver uma relação linear entre as variáveis independentes e o log de probabilidades.
Benefícios da regressão
Existem muitos benefícios na análise de regressão. Em vez de considerar nosso instinto e prever o resultado, podemos usar a análise de regressão e mostrar pontos válidos para possíveis resultados.
Alguns deles estão listados abaixo:
- Prever as vendas e a receita em qualquer setor por períodos mais curtos ou mais longos.
- Prever a taxa de rotatividade de clientes de qualquer setor e descobrir as medidas adequadas para reduzi-las.
- Compreender e prever os níveis de estoque do armazém.
- Descobrir se a introdução de um novo produto no mercado será bem-sucedida ou não.
- Para prever se algum cliente pagará o empréstimo ou não.
- Prever se algum cliente comprará um produto ou não.
- Detecção de fraude ou spam
Conclusão
Existem várias métricas de avaliação que são consideradas após a aplicação do modelo. Embora haja suposições a serem testadas antes da aplicação do modelo, sempre podemos modificar as variáveis usando vários métodos matemáticos e aumentar o desempenho do modelo.
Artigos recomendados
Este é um guia para a análise de regressão. Aqui discutimos a Introdução à análise de regressão, como funcionou a análise de regressão e os benefícios da regressão. Você também pode consultar nossos outros artigos sugeridos para saber mais:
- Análise de regressão linear
- Ferramentas de análise de dados
- Ferramentas de Teste de Regressão
- Análise de Big Data
- Regressão vs Classificação | Principais diferenças principais