Preface
最近吴老师需要入手强化学习,百战不怠呀,从零开始,认真学习!
ReinforcementLearning_WatermelonBook_Summary
周志华西瓜书 Summary
简单介绍什么是强化学习
强化学习由<S,A,P,R> 由state状态空间S,动作控件action,状态转移概率Probability,Reward奖励值四个表示。而这样的描述一个学习过程,我们成为用MDP,马尔可夫决策过程来描述强化学习。 而机器的目标则是学会一个策略函数π,而通常而言我们将通过π(s,a)来表示,表示在状态空间S中某个状态s,我们选择动作空间A中a的概率为多少。这就是策略的一般表示
强化学习例子1——摇臂赌博机
考虑这样的一个问题,有一个k个摇杆的赌博机,你并不知道按下摇杆会吐出多少钱,现在的问题是我只有100次机会我应该如何利用来达到最大金钱总数
建模
这个其实也是一个典型的马尔可夫过程。环境是k摇臂赌博机,S是当前我已知按过的摇臂,吐出过多少钱。动作A是我当前应该按下哪个摇杆。而状态转移概率P指的是我当前这个状态,按下某个摇杆到达另一个金钱状态的概率。而Reward很明显为当前的金钱奖励总和。
算法Exploration & Exploitation & Epsilon-Greedy
很明显这个例子,我们有两种选择,选已知的平均奖赏最大的赌博机,和随机选一个摇杆。 而我们设置一个值epsilon,当随机正态分布<Epsilon的时候进行explore,在1-epsilon中进行exploit。