沅的博客 | My Blog

Reinforcement Learning-An Introduction Chapter9

On-policy Prediction with Approximation

近似函数不再表示成一个表格，而是一个具有权值向量$\mathbf{w} \in \mathbb{R}^d$的参数化函数。通常来说，权值的数量（$\mathbf{w}$的维度）远远小于状态的数量（$d \ll |S|$）。另外改变一个权值将会改变许多状态的估计值。将强化学习扩展到函数逼近还有助于解决“部分观测”问题，即智能体无法观测到完整的状态的情况。如果参数化函数$\hat{...

Posted by Le Yuan on June 24, 2021

Reinforcement Learning-An Introduction Chapter8

Planning and Learning with Tabular Methods

基于模型的方法将规划作为其主要组成部分，而无模型的方法则主要依赖于学习。 By a model of the environment we mean anything that an agent can use to predict how the environment will respond to its actions. 一些模型生成对所有可能的结果的描述及其对应的概率分布，...

Posted by Le Yuan on June 14, 2021

Reinforcement Learning-An Introduction Chapter13

Policy Gradient Methods

In this chapter we consider methods that instead learn a parameterized policy that can select actions without consulting a value function. A value function may still be used to learn the policy p...

Posted by Le Yuan on May 16, 2021

Reinforcement Learning-An Introduction Chapter6

Temporal Difference Learning

MC的目标之所以是一个“估计值”，是因为公式（6.3）中的期望值是未知的，我们用样本回报来代替期望回报。 DP的目标之所以是一个“估计值”则不是因为期望值的原因，其会假设由环境模型完整地提供期望值，真正的原因是因为真实的$v_{\pi}(S_{t+1})$是未知的，因此要使用当前的估计值$V(S_{t+1})$来替代。 TD的目标也是一个“估计值”。理由有两个：它采样得到对式（6...

Posted by Le Yuan on May 11, 2021

Reinforcement Learning-An Introduction Chapter5

Monte Carlo Methods

之前介绍的赌博机算法是采样并平均每个动作的收益（reward），蒙特卡洛算法与之类似，采样并平均每一个“状态-动作”二元组的回报（return）。这里主要的区别是：我们现在有多个状态，每一个状态都类似于一个不同的赌博机问题。并且这些问题是相互关联的。蒙特卡洛预测在给定的某一幕中，每次状态$s$的出现都称为对$s$的一次访问（visit）。在同一幕中，$s$可能会被多次访问到。在...

Posted by Le Yuan on April 20, 2021

Reinforcement Learning-An Introduction Chapter4

Dynamic Programming

利用贝尔曼方程，使用迭代法来解方程组。考虑一个近似的价值函数序列，$v_0,v_1,\ldots,$，从$S^+$映射到$R$（实数集）。初始的近似值$v_0$可以任意选取（除了终止状态值必须为0外）。然后下一轮迭代使用$v_{\pi}$的贝尔曼方程进行更新。在写算法的时候，我们可以使用两个数组：一个用于存储旧的价值函数$v_k(s)$，一个用于存储新的价值函数$v_{k+1}...

Posted by Le Yuan on April 15, 2021

Reinforcement Learning-An Introduction Chapter3

Finite Markov Decision Process

$S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,\ldots$ 我们用$R_{t+1}$而不是$R_t$来表示$A_t$导致的收益，是为了强调下一时刻的收益和下一时刻的状态是被环境一起决定的。智能体和环境的界限划分仅仅决定了智能体进行绝对控制的边界，而并不是其知识的边界。（The agent–environment boundary represen...

Posted by Le Yuan on April 10, 2021

Reinforcement Learning-An Introduction Chapter2

Multi-armed Bandits

多臂赌博机（Multi-armed Bandits） $\epsilon$贪心方法相对于贪心方法的优点依赖于任务。比方说，如果reward的方差很大，那么为了找到最优的动作需要多次的试探。但是，如果方差为0，那么贪心方法会在一次尝试之后就知道每个动作的真实价值。在这种情况下，贪心方法实际上可能表现最好。然而，如果任务是非平稳的，即动作的真实价值会随着时间而变化。那么，即使在确定性的...

Posted by Le Yuan on April 3, 2021

在服务器上配置Jupyter并远程登录

从conda安装到Jupyter配置简明教程

前言这一篇来介绍一下如何在服务器上配置Jupyter并且在本地远程登录使用。比起直接连接服务器出现的terminal，很多人还是更熟悉有目录结构的界面，比如这样：反正连服务器大部分时间使用来程序的，如果还用的是python的话，那再顺手配置一下Jupyter绝对不吃亏。 Linux上安装conda 安装python的话建议直接安装conda，里面集成了python，而且最主要...

Posted by Le Yuan on March 16, 2021

Deep learning from scratch 5

Convolution Neural Network

卷积神经网络本篇的主题是卷积神经网络（Convolutional Neural Network，CNN)。CNN被用于图像识别、语音识别等各种场合，在图像识别的比赛中，基于深度学习的方法几乎都以 CNN为基础。整体结构之前的神经网络，相邻层的所有神经元之间都有连接。这称为全连接（full-connected）。如下图所示，全连接的神经网络中，Affine层后面跟着激活函数Re...

Posted by Le Yuan on February 20, 2021

Yuan's Blog