强化学习-五八三-第2页

Transformer作者：指令型智能体的构建之法

来源 | The Robot Brains Podcast OneFlow编译翻译｜徐佳渝、贾川、杨婷 2017年，Google发布的《Attention Is All You Need》论文提出了Transformer架构，这成为过去十年神经网络领域最具影响...

admin2年前

060

深度强化学习系列：Soft Actor-Critic（SAC）算法原理及代码解析

前言柔性 Actor-Critic（Soft Actor-Critic，SAC）算法采用了最大化熵的想法。学习的目标是最大化熵正则化的累积奖励而不只是累计奖励，从而鼓励更多的探索。 maxπθE[∑tγt(r(St,At)+α...

人工智能

admin2年前

060

强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋

实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点自我对弈详细注释流程简单代码结构 net：策略价值网络实现 mcts：蒙特卡洛树实现 server：前端界面代码 legacy：废弃...

admin2年前

060

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战策略最简单的表示是查找表（look-up table），即表格型策略（tabular pol...

人工智能

admin2年前

050

强化学习从基础到进阶-案例与实践[4]：深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN

强化学习从基础到进阶-案例与实践[4]：深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 传统的强化学习算法会使用表格的形式存储状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s...

人工智能

admin2年前

050

实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数

本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5]：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit）》，作者：汀丶。 1 策略梯度算法如图 5.1 所示，强化...

博客文章

admin2年前

050

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.强化学习核心概念强化学习（reinforcement learning...

博客文章

admin2年前

050

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.1 强化学习概述强化学习（reinforcement learning，RL）讨论的问...

人工智能

admin2年前

040

强化学习从基础到进阶–案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL

强化学习从基础到进阶--案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候，多数时候智能体都不能得到奖励。在不能得到奖...

admin2年前

040

强化学习从基础到进阶-案例与实践[4.2]：深度Q网络DQN-Cart pole游戏展示

强化学习从基础到进阶-案例与实践[4.2]：深度Q网络DQN-Cart pole游戏展示强化学习（Reinforcement learning，简称RL）是机器学习中的一个领域，区别与监督学习和无监督学习，强调如何基于环境...

admin2年前

040

强化学习从基础到进阶–案例与实践含面试必知必答[10]：模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

强化学习从基础到进阶--案例与实践含面试必知必答[10]：模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人模仿学习（imitation learning，IL）讨论的问题是，假设...

admin2年前

030

强化学习从基础到进阶–案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

强化学习从基础到进阶--案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法相关链接以及码源见文末 1.从同策略到异策略PPO算法在介绍近端策略优化（proximal policy opti...

admin2年前

030

强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0

强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0 1、定义算法相比于Q learning，DQN本质上是为了适应更为复杂的环境，并且经过不断的改良迭代，到了Nature DQN（即Vo...

人工智能

admin2年前

030

上一页 12