Reinforement learning 4 - Policy-based

2024-01-07・reinforement learning

在前面的章节，我们介绍了基于价值的强化学习方式，它通过估计价值函数作为中间结果，然后利用确定的策略，比 …

Reinforement learning 3 - Deep Q-learning

2024-01-06・reinforement learning

在前面两篇文章，我们大概介绍了基于价值方式的强化学习优化方法，比如 Q-learning 通过维护 Q-A 的 table 来不断执行策略获 …

2024-01-05・reinforement learning

基于价值的强化学习方式，我们的目标是学习一个价值函数，能够根据状态 $s$ 映射到对应状态期望的价值 …

2024-01-04・reinforement learning

强化学习是智能体通过采取动作与环境进行交互，获取奖惩及后续观测，进而学习动作策略的框架。

环境的观 …