Yuan's Blog

我只是想把学过的知识真正变成自己的东西。慢下来,或许才比较快

Summary of "Deep Learning Interviews"

这篇文章是对《Deep Learning Interviews》的一个总结。正如这本书封页上所说的:这本书之所以很有价值是在于它搜集了许多人工智能主题中完全解决的问题。这就意味着你不用担心对于书中的问题你得出的答案是否是正确的这个问题。(当然前提是你认为他的答案是正确的) 这本书每章(第一章Introduction除外)都是由问题和答案两部分构成。我会按照本书的脉络整理我觉得很好的、有...

Summary of "The Most Common Habits from more than 200 English Papers written by Graduate Chinese Engineering Students"

这篇文章是对《The Most Common Habits from more than 200 English Papers written by Graduate Chinese Engineering Students》的一个归纳整理。该论文是Felicia Brittman汇总了200篇中国工科类学生写的英文论文后总结出来的一些写作上的习惯,并提出了改进的建议。我选择了一些比较典型的...

An Introduction to Causal Inference

这篇文章基本上可以说是《Causal Inference in Statistics A Primer》的读书笔记,然后按照自己的理解精简和突出了一些内容。 Preliminaries “Correlation is not causation(相关性不是因果性)”。这句话大家应该是经常听说的。曾经的统计学主要研究相关性。对于$Y=aX+b$这样一个线性模型来说,它是假定$Y$可以由...

An Introduction to Transformer

开始写这篇博客的时间是2023年2月8日,此时ChatGPT已经爆火了一段时间,并且丝毫没有热度下降的情况,大有一飞冲天之势。所以我感觉有必要去深入学习一下它相关的知识,以后大概率会用得上。 ChatGPT是由InstructGPT发展而来,它们的基础都是GPT (Generative Pretrained Transformer),而GPT的核心结构就是Transformer。因此,先学...

Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow

Part 1

开新坑,就是这本书了。这篇是介绍使用TensorFlow之前的所有内容。 The Machine Learning Landscape 关于“模型”这个词,有时它指的是“模型的类型”,比如线性模型、多项式模型。有时是指“特定的模型结构”,比如有一个输入变量和一个输出变量的线性模型、多个输入一个输出的线性模型。训练模型是是指使用一种算法来找到模型的参数,使其能最好地拟合训练数据。 ...

Reinforcement Learning-An Introduction Chapter1

Introduction

当我们思考何为学习的本质时,也许首先会想到:人类是通过与环境交互来学习的。婴儿玩耍时会挥舞双臂、四处张望,没有老师的指引,只用运动感知使其和外部环境直接联结。这种联结会产生大量信息,正是这些信息告诉了我们事情之间的因果关系、特定动作的后果,以及达到目标的方式。 学习者不会被告知应该采取什么动作,而是必须自己通过尝试去发现哪些动作会产生最丰厚的收益。在最困难的案例里,动作往往影响的不仅仅...

Reinforcement Learning-An Introduction Chapter12

Eligibility Traces

资格迹是强化学习的基本方法之一。它将时序差分和蒙特卡洛算法统一了起来并进行了拓展。它也提供了一种方法使得蒙特卡洛算法一方面可以在线使用,另一方面可以在不是分幕式的持续性问题上使用。 直接介绍的n-步时序差分算法是一种统一时序差分和蒙特卡洛算法的方式,但是资格迹在此基础上给出了具有明显计算优势的更优雅的算法机制。这个机制的核心是一个短时记忆向量,资格迹$\mathbf{z}_t \in ...

Reinforcement Learning-An Introduction Chapter11

Off-policy Methods with Approximation

相较于同轨策略学习,对离轨策略学习进行函数逼近的拓展是截然不同的,而且困难得多。挑战主要来自两方面:一是需要处理更新的目标(这个可以通过importance sampling来应对),第二个挑战是需要处理更新的分布(状态或者状态-动作对的分布),因为离轨策略情况下更新后的分布于同轨策略的分布并不一致。 同轨策略的分布对于半梯度方法的稳定性而言至关重要。有两种通用的方式可以解决这个问题。:...

Reinforcement Learning-An Introduction Chapter7

n-step Bootstrapping

In many applications one wants to be able to update the action very fast to take into account anything that has changed, but bootstrapping works best if it is over a length of time in which a sig...

Reinforcement Learning-An Introduction Chapter10

On-policy Control with Approximation

本章以半梯度Sarsa算法为例,它是上一章讨论的半梯度TD(0)算法到动作价值,以及到策略控制的自然延伸。在分幕式任务的情况下,这种延伸是直接的,但是在持续性任务的情况下,我们必须退回几步来重新审视如何使用折扣来定义最优策略。令人惊讶的是,一旦我们有了真正的函数逼近,我们就必须放弃折扣并将控制问题的定义转换为一个新的“平均收益”的形式,这个形式有一种新的“差分”价值函数。 分幕式半梯度...