排序
Transformer作者:指令型智能体的构建之法
来源 | The Robot Brains Podcast OneFlow编译 翻译|徐佳渝、贾川、杨婷 2017年,Google发布的《Attention Is All You Need》论文提出了Transformer架构,这成为过去十年神经网络领域最具影响...
深度强化学习系列:Soft Actor-Critic(SAC)算法原理及代码解析
前言 柔性 Actor-Critic(Soft Actor-Critic,SAC)算法采用了最大化熵的想法。学习的目标是最大化熵正则化的累积奖励而不只是累计奖励,从而鼓励更多的探索。 maxπθE[∑tγt(r(St,At)+α...
强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋
实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点 自我对弈 详细注释 流程简单 代码结构 net:策略价值网络实现 mcts:蒙特卡洛树实现 server:前端界面代码 legacy:废弃...
强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战
强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战 策略最简单的表示是查找表(look-up table),即表格型策略(tabular pol...
强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN
强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 传统的强化学习算法会使用表格的形式存储状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s...
实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数
本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)》,作者: 汀丶。 1 策略梯度算法 如图 5.1 所示,强化...
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.强化学习核心概念 强化学习(reinforcement learning...
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.1 强化学习概述 强化学习(reinforcement learning,RL) 讨论的问...
强化学习从基础到进阶–案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL
强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖...
强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示
强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示 强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,区别与监督学习和无监督学习,强调如何基于环境...
强化学习从基础到进阶–案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人 模仿学习(imitation learning,IL) 讨论的问题是,假设...
强化学习从基础到进阶–案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法
强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法 相关链接以及码源见文末 1.从同策略到异策略PPO算法 在介绍近端策略优化(proximal policy opti...
强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0
强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0 1、定义算法 相比于Q learning,DQN本质上是为了适应更为复杂的环境,并且经过不断的改良迭代,到了Nature DQN(即Vo...