Yuan's Blog

我只是想把学过的知识真正变成自己的东西。慢下来,或许才比较快

Reinforcement Learning-An Introduction Chapter9

On-policy Prediction with Approximation

近似函数不再表示成一个表格, 而是一个具有权值向量$\mathbf{w} \in \mathbb{R}^d$​的参数化函数。通常来说,权值的数量($\mathbf{w}$​的维度)远远小于状态的数量($d \ll |S|$​)。另外改变一个权值将会改变许多状态的估计值。 将强化学习扩展到函数逼近还有助于解决“部分观测”问题,即智能体无法观测到完整的状态的情况。如果参数化函数$\hat{...

Reinforcement Learning-An Introduction Chapter8

Planning and Learning with Tabular Methods

基于模型的方法将规划作为其主要组成部分,而无模型的方法则主要依赖于学习。 By a model of the environment we mean anything that an agent can use to predict how the environment will respond to its actions. 一些模型生成对所有可能的结果的描述及其对应的概率分布,...

Reinforcement Learning-An Introduction Chapter13

Policy Gradient Methods

In this chapter we consider methods that instead learn a parameterized policy that can select actions without consulting a value function. A value function may still be used to learn the policy p...

Reinforcement Learning-An Introduction Chapter6

Temporal Difference Learning

MC的目标之所以是一个“估计值”,是因为公式(6.3)中的期望值是未知的,我们用样本回报来代替期望回报。 DP的目标之所以是一个“估计值”则不是因为期望值的原因,其会假设由环境模型完整地提供期望值,真正的原因是因为真实的$v_{\pi}(S_{t+1})$是未知的,因此要使用当前的估计值$V(S_{t+1})$来替代。 TD的目标也是一个“估计值”。理由有两个:它采样得到对式(6...

Reinforcement Learning-An Introduction Chapter5

Monte Carlo Methods

之前介绍的赌博机算法是采样并平均每个动作的收益(reward),蒙特卡洛算法与之类似,采样并平均每一个“状态-动作”二元组的回报(return)。这里主要的区别是: 我们现在有多个状态,每一个状态都类似于一个不同的赌博机问题。并且这些问题是相互关联的。 蒙特卡洛预测 在给定的某一幕中,每次状态$s$的出现都称为对$s$的一次访问(visit)。在同一幕中,$s$可能会被多次访问到。在...

Reinforcement Learning-An Introduction Chapter4

Dynamic Programming

利用贝尔曼方程,使用迭代法来解方程组。考虑一个近似的价值函数序列,$v_0,v_1,\ldots,$,从$S^+$映射到$R$(实数集)。初始的近似值$v_0$可以任意选取( 除了终止状态值必须为0外)。然后下一轮迭代使用$v_{\pi}$的贝尔曼方程进行更新。 在写算法的时候,我们可以使用两个数组:一个用于存储旧的价值函数$v_k(s)$,一个用于存储新的价值函数$v_{k+1}...

Reinforcement Learning-An Introduction Chapter3

Finite Markov Decision Process

$S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,\ldots$ 我们用$R_{t+1}$而 不是$R_t$来表示$A_t$导致的收益,是为了强调下一时刻的收益和下一时刻的状态是被环境一起决定的。 智能体和环境的界限划分仅仅决定了智能体进行绝对控制的边界,而并不是其知识的边界。(The agent–environment boundary represen...

Reinforcement Learning-An Introduction Chapter2

Multi-armed Bandits

多臂赌博机(Multi-armed Bandits) $\epsilon$贪心方法相对于贪心方法的优点依赖于任务。比方说,如果reward的方差很大,那么为了找到最优的动作需要多次的试探。但是,如果方差为0,那么贪心方法会在一次尝试之后就知道每个动作的真实价值。在这种情况下,贪心方法实际上可能表现最好。 然而,如果任务是非平稳的,即动作的真实价值会随着时间而变化。那么,即使在确定性的...

在服务器上配置Jupyter并远程登录

从conda安装到Jupyter配置简明教程

前言 这一篇来介绍一下如何在服务器上配置Jupyter并且在本地远程登录使用。比起直接连接服务器出现的terminal,很多人还是更熟悉有目录结构的界面,比如这样: 反正连服务器大部分时间使用来程序的,如果还用的是python的话,那再顺手配置一下Jupyter绝对不吃亏。 Linux上安装conda 安装python的话建议直接安装conda,里面集成了python,而且最主要...

Deep learning from scratch 5

Convolution Neural Network

卷积神经网络 本篇的主题是卷积神经网络(Convolutional Neural Network,CNN)。CNN被用于图像识别、语音识别等各种场合,在图像识别的比赛中,基于深度学习的方法几乎都以 CNN为基础。 整体结构 之前的神经网络,相邻层的所有神经元之间都有连接。这称为全连接(full-connected)。如下图所示,全连接的神经网络中,Affine层后面跟着激活函数Re...