Policy Gradient共0篇
Policy Gradient
强化学习实践:Policy Gradient-Cart pole游戏展示-五八三

强化学习实践:Policy Gradient-Cart pole游戏展示

摘要:智能体 agent 在环境 environment 中学习,根据环境的状态 state(或观测到的 observation),执行动作 action,并根据环境的反馈 reward(奖励)来指导更好的动作。 本文分享自华为云社...
admin的头像-五八三admin2年前
0740