【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习
Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid
做什么
- 提出了一种MARL方法,该方法结合了多智能体深度确定性策略梯度**(MADDPG)和LSTM**
- 使用多步奖励函数代替实时奖励->适度截断可提高效果
- 提出在线启发式调度(OHD)方案制定分配策略->考虑到车辆需求、距离、充电站车辆约束等
- 调度问题分解为两个子问题(能源购买、能源分配)
区别
-
现有的一些研究只考虑了一个充电站的情况或忽略了多个充电站情况下电动汽车在能量分配过程中的意愿(如价格或与充电站的距离)
-
本文同时考虑购买和分配策略
-
现有研究存在维度诅咒问题,本文使用集中训练和分散执行解决
具体工作
-
建模
-
向量表示电厂;表示充电的汽车,共辆;表示充电站,共个,充电站的最大电量为。
-
运行步骤
1.电站购电,计算总电量
2.车辆充电请求:发送信息包括 1)汽车的当前位置 2)需求电量 3)最大充电功率 4)出发时间
3.调度中心分配充电站信息给汽车,包括1)分配到哪个充电站 2)可获得的充电量
4.车辆充电,计算
-
两个目标:
1.分配问题:1)最小化车站距离 2)最大化充电量
2.购电问题:1)最小化购电储电成本 2)最大化售电收益
-
-
能源购买MMADDPG方法
-
环境
-
agent 代表电站
-
状态空间,分别表示时间步,预测的车辆流量,表示不同电站可用充电桩数量,剩余电量
-
观察空间:每个agent部分可观察,
-
动作空间:电站购电量
-
奖励函数:
-
-
含有五个网络:**LSTM预测车辆流量,产生作为环境的状态;**actor;critic;target actor;target critic
-
actor网络()中使用到高斯噪声作为exploration:
其中ζ=0.9995
-
多步奖励函数:考虑对未来的影响
t时刻的奖励会受到此后k个时间步内奖励的影响,k是超参数
数据会进行采样放到buffer中,batch表示为
-
-
critic网络:输入状态行为,输出是对累计折扣奖励的估计(γ在实验中被设置为0.9)
-
target actor 与 target critic网络以一定的比例进行更新(软更新)(在实验中被设置为0.001)
-
-
-
能源分配OHD方法
此外,一旦车辆分配完成,将在数组I’中删除汽车i,防止被分到其他电站
-
建模
-
汽车充电意愿
其中表示衡量两部分在意愿中的重要程度的系数,第一部分为汽车充电的紧迫程度,第二部分为车辆与电站距离。表示汽车的充电需求电量,表示车辆出发时间与当前时间的间隔,表示最大充电功率
-
约束:1)可用充电桩的数量 2)充电站可分配的可用电量
-
-
-
电力购买与车辆分配关系
- 时间顺序:时间步t执行购买,t+1执行分配,如此往复。
- 空间关系:电站电力的购买与车辆分配的数量或者说是交通密度有关,而车辆分配也会参考电站的剩余电力
实验
-
评价指标:所有时间所有agent奖励总和、车站距离总和、车辆充电量总和、满意度=充电总量/总距离
-
MMADDPG与其他RL方法对比:DDPG、DQN、DDPG-PER
- 奖励总和:单智能体强化学习的方法不适用于包含多个充电站的现实场景
- 车站距离总和、车辆充电量总和、满意度:分配的距离最近,虽然充电总和略低但是满意度高
-
OHD对比:1)随机方案 2)最大距离方案 3)最大充电量方案
-
分析k和α超参数的影响
- k=3或4最好,k=1时就是MADDPG方法
- 在车辆少时α的变化影响不大,车辆多时随着α的增大满意度降低:汽车数量增加且对紧迫度的关注加大,有限的充电资源不能完全满足充电需求