资源简介
传统的强化学习(RL)使用回报(也称为累积随机奖励的期望值)来训练代理学习最佳策略。 但是,最近的研究表明,学习学习收益的分布要比学习其预期价值具有不同的优势,如在不同的RL任务中所见。 从使用传统RL的收益期望到分配RL收益分配的转变,为RL的动力学提供了新见解。 本文基于我们最近的研究RL量子方法的工作。 我们的工作使用量子神经网络实现了分位数回归(QR)分布Q学习。 该量子网络在具有不同分位数的网格世界环境中进行了评估,说明了其对算法学习的详细影响。 还将其与马尔可夫决策过程(MDP)链中的标准量子Q学习进行了比较,这表明量子QR分布Q学习比标准量子Q学习可以更有效地探索环境。 RL中的
代码片段和文件信息
相关资源
- (∈∈∨q)-直觉模糊向量子空
- “热纠缠”? –非平衡量子
- η变形的AdS 5×S 5超弦的量子光谱
- 量子通信理论研究 清华优秀博士论文
- 量子力学教程学习辅导书
- 量子力学教程习题剖析pdf
- 北大物理系量子力学教学小组教师内
- 量子力学教程(周世勋)学习辅导书
- 量子力学教程习题剖析—孙婷雅
- 朗道理论物理:量子力学英文版
- A Modern Approach to Quantum Mechanics
- 量子物理赵凯华.pdf
- 量子计算和量子信息 Nielsen著 pdf版
- 量子力学教程答案(曾谨言)
- authorware期末 作品
- 量子力学(曾谨严).pdf
- 量子统计物理学(北京大学物理系)
- QuTip程序使用指南
- 辐射和光场的量子统计理论-曹昌祺
- 曾谨言北大版量子力学导论
- 量子信息物理原理.张永德.Principles.
- 量子计算和量子信息量子计算部分
- 量子力学概论
- 量子力学(钱伯初).pdf
- BB84和B92协议PPT
- 关于量子彩色图像加密论文
- QP状态机第2版 中文)
- 量子信息与量子计算完整讲义
- 量子图像加密仿真实现
- 周世勋量子力学课本及答案.rar
评论
共有 条评论