强化学习共0篇
强化学习
强化学习 Proximal Policy Optimization (PPO)-五八三

强化学习 Proximal Policy Optimization (PPO)

参考: 李宏毅老师课件 PPO = Policy Gradient 从 On-policy 到 Off-policy, 再加一些constraint Policy Gradient# Basic Conception# Actor: 动作执行者(智能体) Env: 环境 Reward Function: 奖...
admin的头像-五八三admin2年前
0200
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF-五八三

人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF

人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念 在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得...
admin的头像-五八三admin2年前
0140
强化学习笔记:DQN的过拟合问题-五八三

强化学习笔记:DQN的过拟合问题

DQN的过拟合问题 建议在学完 DQN 之后有不理解的再看本笔记,本文的环境都是 OpenAI 的开源库 gymnasium 的 Pendulum-v1,其给的最大奖励是 0,也就是直立状态,其他状态都给负奖励,因此可以以...
admin的头像-五八三admin2年前
080
强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋-五八三

强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋

实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点 自我对弈 详细注释 流程简单 代码结构 net:策略价值网络实现 mcts:蒙特卡洛树实现 server:前端界面代码 legacy:废弃...
admin的头像-五八三admin2年前
060
MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习-五八三

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习 Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid...
admin的头像-五八三admin2年前
090
Transformer作者:指令型智能体的构建之法-五八三

Transformer作者:指令型智能体的构建之法

来源 | The Robot Brains Podcast OneFlow编译 翻译|徐佳渝、贾川、杨婷 2017年,Google发布的《Attention Is All You Need》论文提出了Transformer架构,这成为过去十年神经网络领域最具影响...
admin的头像-五八三admin2年前
060
强化学习—PPO(Proximal Policy Optimization)算法原理及实现-五八三

强化学习—PPO(Proximal Policy Optimization)算法原理及实现

前言 近端策略优化(PPO)算法是OpenAI在2017提出的一种强化学习算法,本文将从PPO算法的基础入手,理解从传统策略梯度算法直到PPO算法的演进过程,以及算法迭代过程中的优化细节。 参考视频:...
admin的头像-五八三admin2年前
0390
强化学习实践:Policy Gradient-Cart pole游戏展示-五八三

强化学习实践:Policy Gradient-Cart pole游戏展示

摘要:智能体 agent 在环境 environment 中学习,根据环境的状态 state(或观测到的 observation),执行动作 action,并根据环境的反馈 reward(奖励)来指导更好的动作。 本文分享自华为云社...
admin的头像-五八三admin2年前
0730
强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示-五八三

强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示

强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示 强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,区别与监督学习和无监督学习,强调如何基于环境...
admin的头像-五八三admin2年前
040
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验-五八三

强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验

强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验 AlphaStar及背景简介 相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策...
admin的头像-五八三admin2年前
060
强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法-五八三

强化学习从基础到进阶–案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法

强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法 相关链接以及码源见文末 1.从同策略到异策略PPO算法 在介绍近端策略优化(proximal policy opti...
admin的头像-五八三admin2年前
030
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人-五八三

强化学习从基础到进阶–案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人 模仿学习(imitation learning,IL) 讨论的问题是,假设...
admin的头像-五八三admin2年前
030
强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL-五八三

强化学习从基础到进阶–案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL

强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖...
admin的头像-五八三admin2年前
040
强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解-五八三

强化学习从基础到进阶–案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解 1. 离散动作与连续动作的区别 离散动作与连续动作是相对的概念,一个是可数的,一个...
admin的头像-五八三admin2年前
070
实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数-五八三

实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数

本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)》,作者: 汀丶。 1 策略梯度算法 如图 5.1 所示,强化...
admin的头像-五八三admin2年前
050
强化学习从基础到进阶-案例与实践[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解-五八三

强化学习从基础到进阶-案例与实践[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解

强化学习从基础到进阶-案例与实践[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解 在REINFORCE算法中,每次需要根据一个策略采集一条完整的轨迹,...
admin的头像-五八三admin2年前
070

强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)

强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit) 1.核心词汇 策略(policy):在每一个演员中会有对应的策略,这...
admin的头像-五八三admin2年前
0100
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)-五八三

强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)

强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit) 1 策略梯度算法 如图 5.1 所示,强化学习有 3 个组成部分:演员(actor)、环...
admin的头像-五八三admin2年前
060
强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0-五八三

强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0

强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0 1、定义算法 相比于Q learning,DQN本质上是为了适应更为复杂的环境,并且经过不断的改良迭代,到了Nature DQN(即Vo...
admin的头像-五八三admin2年前
030
强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN-五八三

强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN

强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 传统的强化学习算法会使用表格的形式存储状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s...
admin的头像-五八三admin2年前
050