Introdução ao aprendizado por reforço
O aprendizado por reforço é um tipo de aprendizado de máquina e, portanto, também faz parte da Inteligência Artificial, quando aplicado aos sistemas, os sistemas executam etapas e aprendem com base no resultado das etapas para obter uma meta complexa definida para o sistema atingir.
Compreender o aprendizado por reforço
Vamos tentar trabalhar com o aprendizado por reforço com a ajuda de 2 casos de uso simples:
Caso 1
Há um bebê na família e ela começou a andar e todo mundo está feliz com isso. Um dia, os pais tentam estabelecer uma meta, deixe-nos chegar ao sofá e ver se o bebê é capaz de fazê-lo.
Resultado do Caso 1: O bebê chega ao sofá com sucesso e, portanto, todos na família ficam muito felizes em ver isso. O caminho escolhido agora vem com uma recompensa positiva.
Pontos: Recompensa + (+ n) → Recompensa positiva.
Fonte: https://images.app.goo.gl/pGCXJ1N1bzLAer126
Caso nº 2
O bebê não conseguiu alcançar o sofá e caiu. Isso dói! Qual poderia ser o motivo? Pode haver alguns obstáculos no caminho para o sofá e o bebê caiu em obstáculos.
Resultado do Caso 2: O bebê cai em alguns obstáculos e chora! Ah, isso foi ruim, ela aprendeu, a não cair na armadilha de obstáculos da próxima vez. O caminho escolhido agora vem com uma recompensa negativa.
Pontos: Recompensas + (-n) → Recompensa negativa.
Fonte: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7
Agora, como vimos nos casos 1 e 2, o aprendizado por reforço, em conceito, faz o mesmo, exceto que não é humano, mas realizado computacionalmente.
Usando o reforço passo a passo
Vamos entender o aprendizado por reforço, trazendo um agente de reforço de maneira gradual. Neste exemplo, nosso agente de aprendizado por reforço é Mario, que aprenderá a jogar sozinho:
Fonte: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9
- O estado atual do ambiente do jogo Mario é S_0. Porque o jogo ainda não começou e o Mario está no seu lugar.
- Em seguida, o jogo é iniciado e o Mario se move, o Mario, ou seja, o agente da RL toma uma ação, digamos A_0.
- Agora, o estado do ambiente do jogo se tornou S_1.
- Além disso, o agente da RL, ou seja, o Mario agora recebe um ponto de recompensa positivo, R_1, provavelmente porque o Mario ainda está vivo e não houve nenhum perigo encontrado.
Agora, o loop acima continuará em execução até que o Mario finalmente esteja morto ou o Mario chegue ao seu destino. Este modelo produzirá continuamente a ação, recompensa e estado.
Recompensas de maximização
O objetivo do aprendizado por reforço é maximizar as recompensas levando em consideração outros fatores, como o desconto das recompensas; em breve, explicaremos o significado do desconto com a ajuda de uma ilustração.
A fórmula cumulativa para recompensas com desconto é a seguinte:
Recompensas de desconto
Vamos entender isso através de um exemplo:
- Na figura, o objetivo é que o mouse no jogo tenha que comer tanto queijo antes de ser comido por um gato ou sem ser eletrochoque.
- Agora, podemos assumir que, quanto mais próximos estivermos do gato ou da armadilha elétrica, maior a probabilidade de permitirmos que o mouse seja comido ou chocado.
- Isso implica que, mesmo que tenhamos o queijo cheio perto do bloco de choque elétrico ou perto do gato, quanto mais arriscado for para lá, é melhor comer o queijo que está por perto, a fim de evitar qualquer risco.
- Portanto, mesmo assim, temos um "bloco1" de queijo que está cheio e longe do gato e do bloco de choque elétrico e o outro "bloco2", que também está cheio, mas está perto do gato ou do bloco de choque elétrico, o bloco de queijo posterior, ou seja, "bloco2" terá mais descontos em recompensas do que o anterior.
Fonte: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8
Fonte: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp
Tipos de aprendizado por reforço
Abaixo estão os dois tipos de aprendizado por reforço, com suas vantagens e desvantagens:
1. Positivo
Quando a força e a frequência do comportamento são aumentadas devido à ocorrência de algum comportamento específico, isso é conhecido como Aprendizagem por Reforço Positivo.
Vantagens: O desempenho é maximizado e a mudança permanece por mais tempo.
Desvantagens: Os resultados podem ser diminuídos se tivermos muito reforço.
2. Negativo
É o fortalecimento do comportamento, principalmente por causa do termo negativo desaparecer.
Vantagens: O comportamento é aumentado.
Desvantagens: Somente o comportamento mínimo do modelo pode ser alcançado com a ajuda do aprendizado de reforço negativo.
Onde o aprendizado por reforço deve usar?
Coisas que podem ser feitas com Exemplos / Aprendizagem por Reforço. A seguir, estão as áreas em que o aprendizado por reforço é usado atualmente:
- Cuidados de saúde
- Educação
- Jogos
- Visão computacional
- Gestão de negócios
- Robótica
- Finança
- PNL (Processamento de linguagem natural)
- Transporte
- Energia
Carreiras em Aprendizagem por Reforço
De fato, existe um relatório no local da tarefa, já que a RL é um ramo do Machine Learning, conforme o relatório, o Machine Learning é o melhor trabalho de 2019. Abaixo está o instantâneo do relatório. De acordo com as tendências atuais, o Machine Learning Engineers vem com um salário médio gritante de US $ 146.085 e com uma taxa de crescimento de 344%.
Fonte: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1
Habilidades para Aprendizado por Reforço
Abaixo estão as habilidades necessárias para o aprendizado por reforço:
1. Habilidades básicas
- Probabilidade
- Estatisticas
- Modelagem de dados
2. Habilidades de programação
- Fundamentos de programação e ciência da computação
- Design de software
- Capaz de aplicar bibliotecas e algoritmos de Machine Learning
3. Linguagens de programação de aprendizado de máquina
- Pitão
- R
- Embora também existam outras linguagens em que os modelos de Machine Learning podem ser projetados como Java, C / C ++, mas Python e R são as linguagens mais utilizadas.
Conclusão
Neste artigo, começamos com uma breve introdução sobre o aprendizado por reforço e depois nos aprofundamos no trabalho de RL e em vários fatores envolvidos no trabalho de modelos de RL. Em seguida, colocamos alguns exemplos do mundo real para entender ainda melhor o assunto. No final deste artigo, deve-se ter uma boa compreensão do funcionamento do aprendizado por reforço.
Artigos recomendados
Este é um guia para O que é o aprendizado por reforço ?. Aqui discutimos a função e vários fatores envolvidos no desenvolvimento de modelos de Aprendizado por Reforço, com exemplos. Você também pode consultar nossos outros artigos relacionados para saber mais -
- Tipos de algoritmos de aprendizado de máquina
- Introdução à Inteligência Artificial
- Ferramentas de Inteligência Artificial
- Plataforma IoT
- Os 6 principais idiomas de programação de aprendizado de máquina