O que é Aprendizado por Reforço? - Função e vários fatores

Índice:

Anonim

Introdução ao aprendizado por reforço

O aprendizado por reforço é um tipo de aprendizado de máquina e, portanto, também faz parte da Inteligência Artificial, quando aplicado aos sistemas, os sistemas executam etapas e aprendem com base no resultado das etapas para obter uma meta complexa definida para o sistema atingir.

Compreender o aprendizado por reforço

Vamos tentar trabalhar com o aprendizado por reforço com a ajuda de 2 casos de uso simples:

Caso 1

Há um bebê na família e ela começou a andar e todo mundo está feliz com isso. Um dia, os pais tentam estabelecer uma meta, deixe-nos chegar ao sofá e ver se o bebê é capaz de fazê-lo.

Resultado do Caso 1: O bebê chega ao sofá com sucesso e, portanto, todos na família ficam muito felizes em ver isso. O caminho escolhido agora vem com uma recompensa positiva.

Pontos: Recompensa + (+ n) → Recompensa positiva.

Fonte: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Caso nº 2

O bebê não conseguiu alcançar o sofá e caiu. Isso dói! Qual poderia ser o motivo? Pode haver alguns obstáculos no caminho para o sofá e o bebê caiu em obstáculos.

Resultado do Caso 2: O bebê cai em alguns obstáculos e chora! Ah, isso foi ruim, ela aprendeu, a não cair na armadilha de obstáculos da próxima vez. O caminho escolhido agora vem com uma recompensa negativa.

Pontos: Recompensas + (-n) → Recompensa negativa.

Fonte: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Agora, como vimos nos casos 1 e 2, o aprendizado por reforço, em conceito, faz o mesmo, exceto que não é humano, mas realizado computacionalmente.

Usando o reforço passo a passo

Vamos entender o aprendizado por reforço, trazendo um agente de reforço de maneira gradual. Neste exemplo, nosso agente de aprendizado por reforço é Mario, que aprenderá a jogar sozinho:

Fonte: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

  • O estado atual do ambiente do jogo Mario é S_0. Porque o jogo ainda não começou e o Mario está no seu lugar.
  • Em seguida, o jogo é iniciado e o Mario se move, o Mario, ou seja, o agente da RL toma uma ação, digamos A_0.
  • Agora, o estado do ambiente do jogo se tornou S_1.
  • Além disso, o agente da RL, ou seja, o Mario agora recebe um ponto de recompensa positivo, R_1, provavelmente porque o Mario ainda está vivo e não houve nenhum perigo encontrado.

Agora, o loop acima continuará em execução até que o Mario finalmente esteja morto ou o Mario chegue ao seu destino. Este modelo produzirá continuamente a ação, recompensa e estado.

Recompensas de maximização

O objetivo do aprendizado por reforço é maximizar as recompensas levando em consideração outros fatores, como o desconto das recompensas; em breve, explicaremos o significado do desconto com a ajuda de uma ilustração.

A fórmula cumulativa para recompensas com desconto é a seguinte:

Recompensas de desconto

Vamos entender isso através de um exemplo:

  • Na figura, o objetivo é que o mouse no jogo tenha que comer tanto queijo antes de ser comido por um gato ou sem ser eletrochoque.
  • Agora, podemos assumir que, quanto mais próximos estivermos do gato ou da armadilha elétrica, maior a probabilidade de permitirmos que o mouse seja comido ou chocado.
  • Isso implica que, mesmo que tenhamos o queijo cheio perto do bloco de choque elétrico ou perto do gato, quanto mais arriscado for para lá, é melhor comer o queijo que está por perto, a fim de evitar qualquer risco.
  • Portanto, mesmo assim, temos um "bloco1" de queijo que está cheio e longe do gato e do bloco de choque elétrico e o outro "bloco2", que também está cheio, mas está perto do gato ou do bloco de choque elétrico, o bloco de queijo posterior, ou seja, "bloco2" terá mais descontos em recompensas do que o anterior.

Fonte: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Fonte: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Tipos de aprendizado por reforço

Abaixo estão os dois tipos de aprendizado por reforço, com suas vantagens e desvantagens:

1. Positivo

Quando a força e a frequência do comportamento são aumentadas devido à ocorrência de algum comportamento específico, isso é conhecido como Aprendizagem por Reforço Positivo.

Vantagens: O desempenho é maximizado e a mudança permanece por mais tempo.

Desvantagens: Os resultados podem ser diminuídos se tivermos muito reforço.

2. Negativo

É o fortalecimento do comportamento, principalmente por causa do termo negativo desaparecer.

Vantagens: O comportamento é aumentado.

Desvantagens: Somente o comportamento mínimo do modelo pode ser alcançado com a ajuda do aprendizado de reforço negativo.

Onde o aprendizado por reforço deve usar?

Coisas que podem ser feitas com Exemplos / Aprendizagem por Reforço. A seguir, estão as áreas em que o aprendizado por reforço é usado atualmente:

  1. Cuidados de saúde
  2. Educação
  3. Jogos
  4. Visão computacional
  5. Gestão de negócios
  6. Robótica
  7. Finança
  8. PNL (Processamento de linguagem natural)
  9. Transporte
  10. Energia

Carreiras em Aprendizagem por Reforço

De fato, existe um relatório no local da tarefa, já que a RL é um ramo do Machine Learning, conforme o relatório, o Machine Learning é o melhor trabalho de 2019. Abaixo está o instantâneo do relatório. De acordo com as tendências atuais, o Machine Learning Engineers vem com um salário médio gritante de US $ 146.085 e com uma taxa de crescimento de 344%.

Fonte: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Habilidades para Aprendizado por Reforço

Abaixo estão as habilidades necessárias para o aprendizado por reforço:

1. Habilidades básicas

  • Probabilidade
  • Estatisticas
  • Modelagem de dados

2. Habilidades de programação

  • Fundamentos de programação e ciência da computação
  • Design de software
  • Capaz de aplicar bibliotecas e algoritmos de Machine Learning

3. Linguagens de programação de aprendizado de máquina

  • Pitão
  • R
  • Embora também existam outras linguagens em que os modelos de Machine Learning podem ser projetados como Java, C / C ++, mas Python e R são as linguagens mais utilizadas.

Conclusão

Neste artigo, começamos com uma breve introdução sobre o aprendizado por reforço e depois nos aprofundamos no trabalho de RL e em vários fatores envolvidos no trabalho de modelos de RL. Em seguida, colocamos alguns exemplos do mundo real para entender ainda melhor o assunto. No final deste artigo, deve-se ter uma boa compreensão do funcionamento do aprendizado por reforço.

Artigos recomendados

Este é um guia para O que é o aprendizado por reforço ?. Aqui discutimos a função e vários fatores envolvidos no desenvolvimento de modelos de Aprendizado por Reforço, com exemplos. Você também pode consultar nossos outros artigos relacionados para saber mais -

  1. Tipos de algoritmos de aprendizado de máquina
  2. Introdução à Inteligência Artificial
  3. Ferramentas de Inteligência Artificial
  4. Plataforma IoT
  5. Os 6 principais idiomas de programação de aprendizado de máquina