Yuan's Blog

我只是想把学过的知识真正变成自己的东西。慢下来,或许才比较快

Deep learning from scratch 4

Learning Tricks

私认为这是这本书让我收获最大的部分。 与学习相关的技巧 本篇将介绍神经网络的学习中的一些重要观点,主题涉及寻找最优权重参数的最优化方法、权重参数的初始值、超参数的设定方法等。此外,为了应对过拟合,本章还将介绍权值衰减、Dropout等正则化方法,并进行实现。最后将对近年来众多研究中使用的 Batch Normalization方法进行简单的介绍。 参数的更新 神经网络的学习的目的...

Deep learning from scratch 3

Error Backward-Propagation Method

误差反向传播法 上一篇中,我们介绍了神经网络的学习,并通过数值微分计算了神经网络的权重参数的梯度(严格来说,是损失函数关于权重参数的梯度)。数值微分虽然简单,也容易实现,但缺点是计算上比较费时间。本篇我们将学习一个能够高效计算权重参数的梯度的方法一误差反向传播法。 关于这个反向传播算法,我之前接触深度学习的时候,就一直把它看成链式求导法则在神经网络中的应用(我现在其实也还是这么认为,...

Deep learning from scratch 2

Neural Network Learning

神经网络的学习 这里所说的“学习”是指从训练数据中自动获取最优权重参数的过程。为了使神经网络能进行学习,将引入损失函数这一指标。 从数据中学习 深度学习有时也成为了端到端机器学习(end-to-end machine learning),也就是从原始数据中获得目标结果的过程,中间不需要人为的介入。 训练数据和测试数据 机器学习中,一般将数据分为训练数据和测试数据两部分来进行...

Deep learning from scratch 1

Perceptron and Neural Network

这一系列开始记录这本书的学习过程。其实我是2019年就买了这本书读完了,如今算是重新捡起来再看,因为第一遍看的时候就觉得这本书对于深度学习的介绍非常深入浅出,没有像很多深度学习相关的书一样,给你介绍一些深度学习的框架,TensorFlow、Pytorch都没有,也不会介绍如何使用GPU加速啊,抛开这些“高大上”的东西(当然,如果要从事深度学习相关的工作,这些很重要…),就用python里...

Reinforcement Learning 7

State-of-the-Art Reinforcement Learning Methods

这一篇我们来讲一些目前RL的SOTA的方法,也是两条线,value-based和policy-based,其实两条线最后的发展渐渐都统一到actor-critic上去了,逻辑就按照周老师课件中所列: 首先再回顾下policy gradient的公式(我用的是MC版的): \[\nabla_{\theta}J(\theta)=E_{\pi(\theta)}[\sum_{t=0}^{T-...

Reinforcement Learning 6

Policy-based Reinforcement Learning

这一篇我们来介绍policy-based RL,之前讲的都是基于value函数来导出策略,我们也可以直接将策略函数参数化$\pi_{\theta}(a|s)$,然后通过优化方法来得到最优策略。 那policy-based RL和value-based RL比有什么优劣势呢,总结一下(也不是我总结的,从周老师的课件里搬运过来): 优势 更好的收敛性保证(能收敛,但是不是全局最优就不...

Reinforcement Learning 5

QDN Variants

这一篇我们将一些DQN的变化版本,为什么会出现这些版本呢,首先就要说到DQN的一个问题:过高估计Q value。 Overestimation of Q value 我们回顾一下Q-learning的target值:$y_t=r_t+\gamma \underset{a’}{\max}Q_w(s_{t+1},a’)$ 这个max操作会使Q value越来越大,甚至高于真实值,原因用数学...

Reinforcement Learning 4

Function Approximation and DQN

上一篇我们介绍了model-free的MDP方法,主要是MC和TD,之前举的例子都是离散动作和离散状态的环境,首先是因为解释起来很方便,其次,这些问题的状态和动作都比较少,因此我们可以通过维护一张Q table来存储我们想要的value值,但是现实世界中的很多问题状态和动作空间都非常大,比如 国际象棋:$10^{47}$ states 围棋:$10^{170}$ states ...

Reinforcement Learning 3

Model-free Prediction and Control

上一篇我们介绍了动态规划求解一个MDP的prediction和control问题,回顾一下 但是之所以能这么做是因为我们对这个MDP的转移概率和奖励函数是完全知道的,这样其实相当于有一个后门,强化学习不需要和环境交互来进行学习了。但是在现实中很多时候环境是非常复杂的,就算将其建模成MDP,我们很可能是不知道转移概率和奖励函数的,或者是这个机制太复杂以至于难以利用,比如Atari游戏...

Reinforcement Learning 2

MDP Prediction and Control

先给出上回说到的两个重要公式: \[\begin{gather} v^{\pi}(s)=\sum_{a \in A}\pi(a|s) \big( R(s,a)+\gamma \sum_{s' \in S}P(s'|s,a)v^{\pi}(s') \big) \\ q^{\pi}(s,a)=R(s,a)+\gamma \sum_{s' \in S}P(s'|s,a) \sum_{a' \in...