
Solução de aprendizado de reforço do carrinho do Openai.
Confira o artigo médio correspondente: Cartpole - Introdução ao Aprendizagem de Reforço (DQN - Deep Q -Learning)
Um poste é preso por uma articulação não acionada a um carrinho, que se move ao longo de uma faixa sem atrito. O sistema é controlado aplicando uma força de +1 ou -1 ao carrinho. O pêndulo começa na vertical, e o objetivo é impedir que ele caia. Uma recompensa de +1 é fornecida para todos os times de tempo que o poste permanece na posição vertical. O episódio termina quando o poste é superior a 15 graus da vertical, ou o carrinho se move mais de 2,4 unidades do centro. fonte
DQN padrão com reprodução de experiência.
CartPole-V0 define "resolução" como recebendo recompensa média de 195,0 em mais de 100 julgamentos consecutivos. fonte



Greg (Grzegorz) Surma
Portfólio
Github
Blog