Visão geral das funções de perda no aprendizado de máquina

Assim como os professores nos guiam, se estamos tendo um bom desempenho ou não em nossos acadêmicos, as funções de Perda fazem o mesmo trabalho. É um método de avaliar quão bem nosso algoritmo modela os dados. As funções de perda são a principal fonte de avaliação no aprendizado de máquina moderno. Quando você altera seu algoritmo para melhorar seu modelo, o valor da função de perda informa se você está progredindo ou não. Nosso principal objetivo deve ser reduzir a função de perda por otimização. Neste artigo, discutiremos como as funções de perda funcionam e os diferentes tipos de funções de perda.

Como funcionam as funções de perda?

A palavra 'perda' indica a penalidade por não conseguir o resultado esperado. Se o desvio no valor previsto em relação ao valor esperado por nosso modelo for grande, a função de perda fornecerá o número mais alto como saída e se o desvio for pequeno e muito mais próximo do valor esperado, ele gera um número menor.

Aqui está um exemplo quando estamos tentando prever o preço de venda da casa nas cidades metropolitanas.

Predito

Preço de venda (em lakh)

Real

Preço de venda (em lakh)

Desvio (perda)
Bangalore: 45 0 (todas as previsões estão corretas)
Pune: 35
Chennai: 40
Bangalore: 40Bangalore: 45 5 lakh para Bangalore, 2 lakh para Chennai
Pune: 35Pune: 35
Chennai: 38Chennai: 40
Bangalore: 43 2 lakh para Bangalore, 5 lakh para, Pune2 lakh para Chennai,
Pune: 30
Chennai: 45

É importante observar que a quantidade de desvio não importa, o que importa aqui é se o valor previsto pelo nosso modelo está certo ou errado. As funções de perda são diferentes com base na declaração do seu problema ao qual o aprendizado de máquina está sendo aplicado. A função de custo é outro termo, usado de forma intercambiável para a função de perda, mas possui um significado ligeiramente diferente. Uma função de perda é para um único exemplo de treinamento, enquanto a função de custo é a perda média em todo o conjunto de dados de trem.

Tipos de funções de perda no aprendizado de máquina

Abaixo estão os diferentes tipos de funções de perda no aprendizado de máquina, que são os seguintes:

1) Funções de perda de regressão:

A regressão linear é um conceito fundamental dessa função. As funções de perda de regressão estabelecem uma relação linear entre uma variável dependente (Y) e uma variável independente (X); portanto, tentamos ajustar a melhor linha no espaço nessas variáveis.

Y = X0 + X1 + X2 + X3 + X4…. + Xn

X = Variáveis ​​independentes

Y = variável dependente

  • Perda quadrática média de erro:

MSE (erro L2) mede a diferença quadrática média entre os valores reais e previstos pelo modelo. A saída é um número único associado a um conjunto de valores. Nosso objetivo é reduzir o MSE para melhorar a precisão do modelo.

Considere a equação linear, y = mx + c, podemos derivar MSE como:

MSE = 1 / N ∑i = 1 para n (y (i) - (mx (i) + b)) 2

Aqui, N é o número total de pontos de dados, 1 / N ∑i = 1 para n é o valor médio e y (i) é o valor real e mx (i) + b é o valor previsto.

  • Perda de erro logarítmico ao quadrado médio (MSLE):

MSLE mede a proporção entre o valor real e o previsto. Introduz uma assimetria na curva de erro. O MSLE se importa apenas com a diferença percentual dos valores reais e previstos. Pode ser uma boa escolha como uma função de perda, quando queremos prever preços de vendas de casas, preços de padaria e os dados são contínuos.

Aqui, a perda pode ser calculada como a média dos dados observados das diferenças ao quadrado entre os valores reais e previstos transformados em log, que podem ser dados como:

L = 1nn∑i = 1 (log (y (i) +1) - log (y (i) +1)) 2

  • Erro absoluto médio (MAE):

O MAE calcula a soma das diferenças absolutas entre as variáveis ​​reais e as previstas. Isso significa que mede a magnitude média dos erros em um conjunto de valores previstos. Usar o erro quadrado médio é mais fácil de resolver, mas usar o erro absoluto é mais robusto para os valores discrepantes. Os valores extremos são aqueles que se desviam extremamente de outros pontos de dados observados.

O MAE pode ser calculado como:

L = 1nn∑i = 1∣∣y (i) - y (i) ∣∣

2) Funções de perda de classificação binária:

Essas funções de perda são feitas para medir o desempenho do modelo de classificação. Nesse ponto, os pontos de dados recebem um dos rótulos, ou seja, 0 ou 1. Além disso, eles podem ser classificados como:

  • Entropia cruzada binária

É uma função de perda padrão para problemas de classificação binária. A perda de entropia cruzada calcula o desempenho de um modelo de classificação que fornece uma saída com um valor de probabilidade entre 0 e 1. A perda de entropia cruzada aumenta à medida que o valor de probabilidade previsto se desvia do rótulo real.

  • Perda de dobradiça

A perda de dobradiça pode ser usada como uma alternativa à entropia cruzada, que foi desenvolvida inicialmente para uso com um algoritmo de máquina de vetores de suporte. A perda de dobradiça funciona melhor com o problema de classificação porque os valores de destino estão no conjunto de (-1, 1). Permite atribuir mais erros quando há uma diferença no sinal entre os valores reais e os previstos. Portanto, resultando em melhor desempenho do que a entropia cruzada.

  • Perda de dobradiça ao quadrado

Uma extensão da perda de dobradiça, que simplesmente calcula o quadrado da pontuação da perda de dobradiça. Reduz a função de erro e facilita numericamente o trabalho. Ele encontra o limite de classificação que especifica a margem máxima entre os pontos de dados de várias classes. A perda quadrada de dobradiça é perfeita para problemas de decisão SIM ou NÃO, em que o desvio de probabilidade não é a preocupação.

3) Funções de perda de classificação de várias classes:

A classificação de várias classes é o modelo preditivo no qual os pontos de dados são atribuídos a mais de duas classes. Cada classe recebe um valor exclusivo de 0 a (Number_of_classes - 1). É altamente recomendado para problemas de classificação de imagem ou texto, em que um único artigo pode ter vários tópicos.

  • Entropia cruzada de várias classes

Nesse caso, os valores teóricos estão no conjunto de 0 a n, ou seja, (0, 1, 2, 3… n). Ele calcula uma pontuação que leva a uma diferença média entre os valores de probabilidade reais e previstos e a pontuação é minimizada para alcançar a melhor precisão possível. A entropia cruzada de várias classes é a função de perda padrão para problemas de classificação de texto.

  • Entropia cruzada de várias classes esparsas

Um processo de codificação a quente torna a entropia cruzada multi-classe difícil de lidar com um grande número de pontos de dados. A entropia esparsa resolve esse problema executando o cálculo do erro sem usar a codificação one-hot.

  • Perda de divergência de Kullback Leibler

A perda de divergência KL calcula a divergência entre a distribuição de probabilidade e a linha de base e descobre quanta informação é perdida em termos de bits. A saída é um valor não negativo que especifica quão próximas duas distribuições de probabilidade estão. Para descrever a divergência de KL em termos de visão probabilística, é utilizada a razão de verossimilhança.

Neste artigo, inicialmente, entendemos como as funções de perda funcionam e depois exploramos uma lista abrangente de funções de perda com exemplos de casos usados. No entanto, entendê-lo praticamente é mais benéfico, portanto, tente ler mais e implementá-lo. Isso esclarecerá suas dúvidas completamente.

Artigos recomendados

Este é um guia para Funções de perda no aprendizado de máquina. Aqui discutimos Como funcionam as funções de perda e os tipos de funções de perda no aprendizado de máquina. Você também pode consultar os seguintes artigos para saber mais -

  1. Métodos de aprendizado de máquina
  2. Introdução ao aprendizado de máquina
  3. Tecnologias de Big Data
  4. Software de Análise de Big Data
  5. Aprenda as categorias do hiperparâmetro
  6. Ciclo de vida do aprendizado de máquina | 8 etapas principais

Categoria: