tags
type
status
date
slug
summary
category
password
icon
#Basis-1 Individual Q-Leaning
条件:无后效性
状态
动作
转移 ,为取值在S上的概率分布,也记为
激励 或者 (当转移结果不确定时,考虑该动作的结果的影响)表示t时刻获得的激励
策略 ,也记为
如果有限,那么给定一个概率性的策略,一定能解出每个。
对于马尔科夫问题,至少存在一个最优策略,它比其他所有策略都好或者不差,即
最优策略一定是确定性的
#策略迭代
我们的目标就是学习到这个最优的策略,因此一个自然的想法就是迭代。
先任意选定一个策略,算出对应的,如果存在一种另外的,使得某个更高,那么说明不是最优策略(马尔科夫,局部更优就意味着全局更优),更新之。直到策略不再变化,我们就找到了最优的和最优的。
#值迭代
上述方法每更新一次,就要重新对全局算一次,效率太低。能不能直接算出?
确定性的最优策略下,我们有Bellman最优方程:,容易证明Bellman最优方程也满足收缩条件,存在唯一解
我们可以省略的更新,每次让,直接得出。然后再由得出
#Q-Learning
从值迭代优化,每次只采样一些来更新Q
考虑转移概率:
#Basis-2 Multi-Agent Nash equilibria
#Nash Thm.
在任何有限博弈(即参与者和策略集合均有限的博弈问题)中,若允许参与者采用混合策略,则存在至少一个纳什均衡
- 作者:XiaoTianyao
- 链接:https://www.xty27.top/article/Ising
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章