设计了一种带有经验池回放机制的reinforce算法(reinforce with experience buffer),算法的主题部分使用多环境并行化的reinforce算法,并使用经验池回放机制来进一步改进算法。仿真环境使用gym的cartpole。
最近更新: 5年前强化学习中的策略网络算法。《TensorFlow实战》一书中强化学习部分的策略网络算法,仿真环境为gym的CartPole,本项目是对原书代码进行了部分重构,是在以前的版本CartPole_PolicyNetwork项目基础上的改进版本,主要加入了更新网络策略时不同的奖励值设定来观察不同形式下的性能区别。
最近更新: 5年前结合了前面几个版本的并行化强化学习的设计,给出了最终版本。gym下简单的CarlPole环境作为仿真环境,以reinforce算法作为实例算法,讨论了强化学习在多仿真环境下并行化设计的可行性,并给出了几种个人设计的架构,同时对各架构的性能进行了一定的分析。
最近更新: 5年前gym下简单的CarlPole环境作为仿真环境,以reinforce算法作为实例算法,讨论了强化学习在多仿真环境下多步交互并行化设计的可行性,并给出了几种个人设计的架构,同时对各架构的性能进行了一定的分析。
最近更新: 5年前gym下简单的CarlPole环境作为仿真环境,以reinforce算法作为实例算法,讨论了强化学习在多仿真环境下单步交互并行化设计的可行性,并给出了几种个人设计的架构,同时对各架构的性能进行了一定的分析。
最近更新: 5年前强化学习中的策略网络算法。《TensorFlow实战》一书中强化学习部分的策略网络算法,仿真环境为gym的CartPole,本项目是对原书代码进行了部分重构,并加入了些中文注释,同时给出了30次试验的运行结果。
最近更新: 5年多前