论文研究 - 连续时间马尔可夫决策过程的方差优化

大小: 398KB

文件类型: .pdf

金币: 2

下载: 0 次

发布日期: 2024-01-10
语言: 其他
标签: 策略迭代

高速下载

资源简介

本文考虑了连续时间马尔可夫决策过程中平均报酬的方差优化问题。假设状态空间是可计数的，而动作空间是Borel可测量的空间。本文的主要目的是在确定性平稳策略空间中找到方差最小的策略。与传统的马尔可夫决策过程不同，方差准则中的成本函数将受到未来行动的影响。为此，我们通过引入称为伪方差的概念将方差最小化问题转换为标准（MDP）。通过给出伪方差优化问题的策略迭代算法，推导了原始方差优化问题的最优策略，并给出了方差最优策略的充分条件。最后，我们用一个例子来说明本文的结论。

资源截图

小图大图

代码片段和文件信息

上一篇：论文研究 - 量子神经网络的分布强化学习
下一篇：NodeCanvas 2.9.2

共有条评论

论文研究 - 连续时间马尔可夫决策过程的方差优化

资源简介

资源截图

代码片段和文件信息

评论

相关资源