强化学习-五八三

强化学习 Proximal Policy Optimization (PPO)

参考: 李宏毅老师课件 PPO = Policy Gradient 从 On-policy 到 Off-policy, 再加一些constraint Policy Gradient# Basic Conception# Actor: 动作执行者(智能体) Env: 环境 Reward Function: 奖...

博客文章

admin2年前

0200

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得...

admin2年前

0140

强化学习笔记：DQN的过拟合问题

DQN的过拟合问题建议在学完 DQN 之后有不理解的再看本笔记，本文的环境都是 OpenAI 的开源库 gymnasium 的 Pendulum-v1，其给的最大奖励是 0，也就是直立状态，其他状态都给负奖励，因此可以以...

admin2年前

080

强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋

实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点自我对弈详细注释流程简单代码结构 net：策略价值网络实现 mcts：蒙特卡洛树实现 server：前端界面代码 legacy：废弃...

admin2年前

060

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习 Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid...

admin2年前

090

Transformer作者：指令型智能体的构建之法

来源 | The Robot Brains Podcast OneFlow编译翻译｜徐佳渝、贾川、杨婷 2017年，Google发布的《Attention Is All You Need》论文提出了Transformer架构，这成为过去十年神经网络领域最具影响...

admin2年前

060

强化学习—PPO（Proximal Policy Optimization）算法原理及实现

前言近端策略优化（PPO）算法是OpenAI在2017提出的一种强化学习算法，本文将从PPO算法的基础入手，理解从传统策略梯度算法直到PPO算法的演进过程，以及算法迭代过程中的优化细节。参考视频：...

admin2年前

0390

强化学习实践：Policy Gradient-Cart pole游戏展示

摘要：智能体 agent 在环境 environment 中学习，根据环境的状态 state（或观测到的 observation），执行动作 action，并根据环境的反馈 reward（奖励）来指导更好的动作。本文分享自华为云社...

博客文章

admin2年前

0730

强化学习从基础到进阶-案例与实践[4.2]：深度Q网络DQN-Cart pole游戏展示

强化学习从基础到进阶-案例与实践[4.2]：深度Q网络DQN-Cart pole游戏展示强化学习（Reinforcement learning，简称RL）是机器学习中的一个领域，区别与监督学习和无监督学习，强调如何基于环境...

admin2年前

040

强化学习从基础到进阶–案例与实践[11]：AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验

强化学习从基础到进阶–案例与实践[11]：AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验 AlphaStar及背景简介相比于之前的深蓝和AlphaGo，对于《星际争霸Ⅱ》等策...

admin2年前

060

强化学习从基础到进阶–案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

强化学习从基础到进阶--案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法相关链接以及码源见文末 1.从同策略到异策略PPO算法在介绍近端策略优化（proximal policy opti...

admin2年前

030

强化学习从基础到进阶–案例与实践含面试必知必答[10]：模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

强化学习从基础到进阶--案例与实践含面试必知必答[10]：模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人模仿学习（imitation learning，IL）讨论的问题是，假设...

admin2年前

030

强化学习从基础到进阶–案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL

强化学习从基础到进阶--案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候，多数时候智能体都不能得到奖励。在不能得到奖...

admin2年前

040

强化学习从基础到进阶–案例与实践[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

强化学习从基础到进阶--案例与实践[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解 1. 离散动作与连续动作的区别离散动作与连续动作是相对的概念，一个是可数的，一个...

admin2年前

070

实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数

本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5]：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit）》，作者：汀丶。 1 策略梯度算法如图 5.1 所示，强化...

博客文章

admin2年前

050

强化学习从基础到进阶-案例与实践[6]：演员-评论员算法（advantage actor-critic，A2C），异步A2C、与生成对抗网络的联系等详解

强化学习从基础到进阶-案例与实践[6]：演员-评论员算法（advantage actor-critic，A2C），异步A2C、与生成对抗网络的联系等详解在REINFORCE算法中，每次需要根据一个策略采集一条完整的轨迹，...

admin2年前

070

强化学习从基础到进阶-常见问题和面试必知必答[5]：：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit）

强化学习从基础到进阶-常见问题和面试必知必答[5]：：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit） 1.核心词汇策略（policy）：在每一个演员中会有对应的策略，这...

人工智能

admin2年前

0100

强化学习从基础到进阶-案例与实践[5]：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit）

强化学习从基础到进阶-案例与实践[5]：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit） 1 策略梯度算法如图 5.1 所示，强化学习有 3 个组成部分：演员（actor）、环...

人工智能

admin2年前

060

强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0

强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0 1、定义算法相比于Q learning，DQN本质上是为了适应更为复杂的环境，并且经过不断的改良迭代，到了Nature DQN（即Vo...

人工智能

admin2年前

030

强化学习从基础到进阶-案例与实践[4]：深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN

强化学习从基础到进阶-案例与实践[4]：深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 传统的强化学习算法会使用表格的形式存储状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s...

人工智能

admin2年前

050

12 下一页