Reinforcement Learning-An Introduction Chapter3
Finite Markov Decision Process
$S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,\ldots$
我们用$R_{t+1}$而 不是$R_t$来表示$A_t$导致的收益,是为了强调下一时刻的收益和下一时刻的状态是被环境一起决定的。
智能体和环境的界限划分仅仅决定了智能体进行绝对控制的边界,而并不是其知识的边界。(The agent–environment boundary represen...