tags
type
status
date
slug
summary
category
password
icon

#Basis-1 Individual Q-Leaning

条件:无后效性
状态
动作
转移 为取值在S上的概率分布,也记为
激励 或者 (当转移结果不确定时,考虑该动作的结果的影响)表示t时刻获得的激励
策略 ,也记为
如果有限,那么给定一个概率性的策略,一定能解出每个
notion image
对于马尔科夫问题,至少存在一个最优策略,它比其他所有策略都好或者不差,即
最优策略一定是确定性的

#策略迭代

我们的目标就是学习到这个最优的策略,因此一个自然的想法就是迭代。
先任意选定一个策略,算出对应的,如果存在一种另外的,使得某个更高,那么说明不是最优策略(马尔科夫,局部更优就意味着全局更优),更新之。直到策略不再变化,我们就找到了最优的和最优的
notion image

#值迭代

上述方法每更新一次,就要重新对全局算一次,效率太低。能不能直接算出
确定性的最优策略下,我们有Bellman最优方程:,容易证明Bellman最优方程也满足收缩条件,存在唯一解
notion image
我们可以省略的更新,每次让,直接得出。然后再由得出
notion image

#Q-Learning

从值迭代优化,每次只采样一些来更新Q
notion image
考虑转移概率:

#Basis-2 Multi-Agent Nash equilibria

#Nash Thm.

在任何有限博弈(即参与者和策略集合均有限的博弈问题)中,若允许参与者采用混合策略,则存在至少一个纳什均衡
 
相关文章
11.2-故事物理学思考