强化学习-五八三-第2页

Transformer作者：指令型智能体的构建之法

来源 | The Robot Brains Podcast OneFlow编译翻译｜徐佳渝、贾川、杨婷 2017年，Google发布的《Attention Is All You Need》论文提出了Transformer架构，这成为过去十年神经网络领域最具影响...

admin2年前

060

深度强化学习系列：Soft Actor-Critic（SAC）算法原理及代码解析

前言柔性 Actor-Critic（Soft Actor-Critic，SAC）算法采用了最大化熵的想法。学习的目标是最大化熵正则化的累积奖励而不只是累计奖励，从而鼓励更多的探索。 maxπθE[∑tγt(r(St,At)+α...

人工智能

admin2年前

060

实践讲解强化学习之梯度策略、添加基线、优势函数、动作分配合适的分数

本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5]：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit）》，作者：汀丶。 1 策略梯度算法如图 5.1 所示，强化...

博客文章

admin2年前

050

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习 Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid...

admin2年前

090

写给焦虑，迷茫的前端人的思考

前言现在好多人说程序员的红利时代已经过去裁员的企业比比皆是简历投出去基本没人理，2,3个月能找到工作就不错了，而且还是降薪有重点学校毕业的也只能找到外包的工作千万别学计算机相关专...

阅读

admin2年前

070

强化学习从基础到进阶-案例与实践[6]：演员-评论员算法（advantage actor-critic，A2C），异步A2C、与生成对抗网络的联系等详解

强化学习从基础到进阶-案例与实践[6]：演员-评论员算法（advantage actor-critic，A2C），异步A2C、与生成对抗网络的联系等详解在REINFORCE算法中，每次需要根据一个策略采集一条完整的轨迹，...

admin2年前

070

强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋

实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点自我对弈详细注释流程简单代码结构 net：策略价值网络实现 mcts：蒙特卡洛树实现 server：前端界面代码 legacy：废弃...

admin2年前

060

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.强化学习核心概念强化学习（reinforcement learning...

博客文章

admin2年前

050

强化学习从基础到进阶–案例与实践[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

强化学习从基础到进阶--案例与实践[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解 1. 离散动作与连续动作的区别离散动作与连续动作是相对的概念，一个是可数的，一个...

admin2年前

070

强化学习笔记：DQN的过拟合问题

DQN的过拟合问题建议在学完 DQN 之后有不理解的再看本笔记，本文的环境都是 OpenAI 的开源库 gymnasium 的 Pendulum-v1，其给的最大奖励是 0，也就是直立状态，其他状态都给负奖励，因此可以以...

admin2年前

080

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.1 强化学习概述强化学习（reinforcement learning，RL）讨论的问...

人工智能

admin2年前

040

强化学习从基础到进阶–案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL

强化学习从基础到进阶--案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候，多数时候智能体都不能得到奖励。在不能得到奖...

admin2年前

040

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得...

admin2年前

0140

上一页 12