Reinforement learning 4 - Policy-based

2024-01-07・reinforement learning

一、介绍

在前面的章节,我们介绍了基于价值的强化学习方式,它通过估计价值函数作为中间结果,然后利用确定的策略,比 …


Reinforement learning 3 - Deep Q-learning

2024-01-06・reinforement learning

一、Deep Q-learning

在前面两篇文章,我们大概介绍了基于价值方式的强化学习优化方法,比如 Q-learning 通过维护 Q-A 的 table 来不断执行策略获 …


Reinforement learning 2 - Value-based

2024-01-05・reinforement learning

一、Value-based 学习方式

基于价值的强化学习方式,我们的目标是学习一个价值函数,能够根据状态 $s$ 映射到对应状态期望的价值 …


Reinforement learning 1 - Introduction

2024-01-04・reinforement learning

一、基础介绍

强化学习是智能体通过采取动作与环境进行交互,获取奖惩及后续观测,进而学习动作策略的框架。

RL

环境的观 …