排序
强化学习笔记:DQN的过拟合问题
DQN的过拟合问题 建议在学完 DQN 之后有不理解的再看本笔记,本文的环境都是 OpenAI 的开源库 gymnasium 的 Pendulum-v1,其给的最大奖励是 0,也就是直立状态,其他状态都给负奖励,因此可以以...
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.1 强化学习概述 强化学习(reinforcement learning,RL) 讨论的问...
强化学习从基础到进阶–案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL
强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖...
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念 在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得...
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代 1.马尔科夫决策核心词汇 马尔可夫性质(Markov property,MP):如果某一个过程未来的状...
强化学习从基础到进阶–案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人 模仿学习(imitation learning,IL) 讨论的问题是,假设...
马尔科夫(马尔可夫)决策过程浅析
我是 Andy.Qin,一个想创造哆啦 A 梦的 Maker,更多好文章可以到我的博客:qin.news 马尔科夫链(Markov Chain)是一种随机过程,它最初是由俄国数学家A. A. 马尔科夫在1907年提出的。它被广泛...
强化学习 Proximal Policy Optimization (PPO)
参考: 李宏毅老师课件 PPO = Policy Gradient 从 On-policy 到 Off-policy, 再加一些constraint Policy Gradient# Basic Conception# Actor: 动作执行者(智能体) Env: 环境 Reward Function: 奖...
强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
# 强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代 图 2.1 介绍了强化学习里面智能体与环境之间的交互,智能体得到环境的状态后,它会采取动作,并把这...
强化学习从基础到进阶–案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法
强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法 相关链接以及码源见文末 1.从同策略到异策略PPO算法 在介绍近端策略优化(proximal policy opti...
深度强化学习系列: Actor-Critic(AC)算法原理及代码详解
前言 在 REINFORCE 算法中,每次需要根据一个策略采集一条完整的轨迹,并计算这条轨迹上的回报。这种采样方式的方差比较大,学习效率也比较低。我们可以借鉴时序差分学习的思想,...
强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战
强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战 策略最简单的表示是查找表(look-up table),即表格型策略(tabular pol...
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验 AlphaStar及背景简介 相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策...
深度强化学习系列: A3C(Asynchronous Advantage Actor-critic)算法原理及Tensorflow实现
前言 强化学习有一个问题,就是它很慢,怎么提高训练的速度呢?在动漫《火影忍者》中,有一次鸣人想要在一周之内打败晓,所以要加快修行的速度,鸣人的老师就教他一个方法:用影...
强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN
强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 传统的强化学习算法会使用表格的形式存储状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s...
强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示
强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示 强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,区别与监督学习和无监督学习,强调如何基于环境...
关于RPG游戏的强化学习
摘要-近年来,研究人员在使用深度神经网络控制各种棋盘、竞技场和策略游戏方面取得了显著成功。然而,尝试控制角色扮演游戏(RPG)的尝试相对较少,而这些游戏在概念上可能最接近现实生活环境。...
强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0
强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0 1、定义算法 相比于Q learning,DQN本质上是为了适应更为复杂的环境,并且经过不断的改良迭代,到了Nature DQN(即Vo...
强化学习实践:Policy Gradient-Cart pole游戏展示
摘要:智能体 agent 在环境 environment 中学习,根据环境的状态 state(或观测到的 observation),执行动作 action,并根据环境的反馈 reward(奖励)来指导更好的动作。 本文分享自华为云社...
如何使用近端策略优化(PPO)算法训练强化学习模型玩游戏
要点 学习如何使用PyTorch和Lightning Fabric(lightning.ai/pages/open-… 强化学习简介 强化学习(RL)是一种机器学习算法,通过让智能代理与环境互动并随时间调整行为以实现某个目标的最大化...