-
大小: 5.41MB文件类型: .zip金币: 2下载: 0 次发布日期: 2023-11-18
- 语言: Python
- 标签:
资源简介
深度增强学习算法的PyTorch实现(策略梯度/生成对抗模仿学习)

代码片段和文件信息
import torch
def a2c_step(policy_net value_net optimizer_policy optimizer_value states actions returns advantages l2_reg):
“““update critic“““
values_pred = value_net(states)
value_loss = (values_pred - returns).pow(2).mean()
# weight decay
for param in value_net.parameters():
value_loss += param.pow(2).sum() * l2_reg
optimizer_value.zero_grad()
value_loss.backward()
optimizer_value.step()
“““update policy“““
log_probs = policy_net.get_log_prob(states actions)
policy_loss = -(log_probs * advantages).mean()
optimizer_policy.zero_grad()
policy_loss.backward()
torch.nn.utils.clip_grad_norm_(policy_net.parameters() 40)
optimizer_policy.step()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-04-25 22:23 PyTorch-RL-master\
文件 2291 2019-04-25 22:23 PyTorch-RL-master\README.md
目录 0 2019-04-25 22:23 PyTorch-RL-master\assets\
目录 0 2019-04-25 22:23 PyTorch-RL-master\assets\expert_traj\
文件 5600610 2019-04-25 22:23 PyTorch-RL-master\assets\expert_traj\Hopper-v2_expert_traj.p
目录 0 2019-04-25 22:23 PyTorch-RL-master\assets\learned_models\
文件 298897 2019-04-25 22:23 PyTorch-RL-master\assets\learned_models\Hopper-v2_ppo.p
目录 0 2019-04-25 22:23 PyTorch-RL-master\core\
文件 729 2019-04-25 22:23 PyTorch-RL-master\core\a2c.py
文件 5430 2019-04-25 22:23 PyTorch-RL-master\core\agent.py
文件 841 2019-04-25 22:23 PyTorch-RL-master\core\common.py
文件 1032 2019-04-25 22:23 PyTorch-RL-master\core\ppo.py
文件 4672 2019-04-25 22:23 PyTorch-RL-master\core\trpo.py
目录 0 2019-04-25 22:23 PyTorch-RL-master\examples\
文件 5294 2019-04-25 22:23 PyTorch-RL-master\examples\a2c_gym.py
文件 6590 2019-04-25 22:23 PyTorch-RL-master\examples\ppo_gym.py
文件 5406 2019-04-25 22:23 PyTorch-RL-master\examples\trpo_gym.py
目录 0 2019-04-25 22:23 PyTorch-RL-master\gail\
文件 7699 2019-04-25 22:23 PyTorch-RL-master\gail\gail_gym.py
文件 2531 2019-04-25 22:23 PyTorch-RL-master\gail\save_expert_traj.py
目录 0 2019-04-25 22:23 PyTorch-RL-master\models\
文件 902 2019-04-25 22:23 PyTorch-RL-master\models\mlp_critic.py
文件 905 2019-04-25 22:23 PyTorch-RL-master\models\mlp_discriminator.py
文件 2426 2019-04-25 22:23 PyTorch-RL-master\models\mlp_policy.py
文件 1702 2019-04-25 22:23 PyTorch-RL-master\models\mlp_policy_disc.py
目录 0 2019-04-25 22:23 PyTorch-RL-master\utils\
文件 139 2019-04-25 22:23 PyTorch-RL-master\utils\__init__.py
文件 371 2019-04-25 22:23 PyTorch-RL-master\utils\math.py
文件 862 2019-04-25 22:23 PyTorch-RL-master\utils\replay_memory.py
文件 126 2019-04-25 22:23 PyTorch-RL-master\utils\tools.py
文件 1949 2019-04-25 22:23 PyTorch-RL-master\utils\torch.py
............此处省略1个文件信息
相关资源
- Python-BDD100K大规模多样化驾驶视频数据
- Python-DeepMoji模型的pyTorch实现
- Python-使用DeepFakes实现YouTube视频自动换
- Python-一系列高品质的动漫人脸数据集
- Python-Insightface人脸检测识别的最小化
- Python-自然场景文本检测PSENet的一个
- Python-在特征金字塔网络FPN的Pytorch实现
- Python-PyTorch实时多人姿态估计项目的实
- Python-用PyTorch10实现FasterRCNN和MaskRCNN比
- Python-心脏核磁共振MRI图像分割
- Python-基于YOLOv3的行人检测
- Python-RLSeq2Seq用于SequencetoSequence模型的
- Python-PyTorch对卷积CRF的参考实现
- Python-高效准确的EAST文本检测器的一个
- Python-pytorch实现的人脸检测和人脸识别
- Python-UNet用于医学图像分割的嵌套UN
- Python-TensorFlow弱监督图像分割
- Python-基于tensorflow实现的用textcnn方法
- Python-Keras实现Inceptionv4InceptionResnetv1和
- Python-pytorch中文手册
- Python-FastSCNN的PyTorch实现快速语义分割
- Python-滑动窗口高分辨率显微镜图像分
- Python-使用MovieLens数据集训练的电影推
- Python-机器学习驱动的Web应用程序防火
- Python-subpixel利用Tensorflow的一个子像素
-
Python-汉字的神经风格转移Neuralst
y - Python-神经网络模型能够从音频演讲中
- Python-基于深度学习的语音增强使用
- Python-基于知识图谱的红楼梦人物关系
- Python-STGAN用于图像合成的空间变换生
评论
共有 条评论