当前位置: 首页 > news >正文

Proximal Policy Optimization Algorithms

本文提出一种新的强化学习策略梯度方法族,通过与环境的交互在采样数据之间交替进行,并使用随机梯度上升优化"替代"目标函数。标准策略梯度方法对每个数据样本执行一次梯度更新,本文提出一种新的目标函数,使多个小批量更新阶段成为可能。这些新方法称为近端策略优化(proximal policy optimization, PPO),具有信赖域策略优化(trust region policy optimization, TRPO)的一些优点,但它们实现起来更简单,更通用,并且具有更好的样本复杂度(经验上)。实验在一组基准任务上测试了PPO,包括模拟机器人运动和Atari游戏,PPO优于其他在线策略梯度方法,总体上在样本复杂性、简单性和wtime之间取得了良好的平衡。

背景:1)信赖域策略优化(trust region policy optimization, TRPO)相对复杂,与包含噪声(如dropout)或参数共享(策略和值函数之间,或与辅助任务)的架构不兼容。

2)为了优化策略,我们轮流从策略中采样数据,并对采样数据执行多个时段的优化。

2.1 Policy Gradient Methods

 

 

 2.2 Trust Region Methods

 

 

 3 Clipped Surrogate Objective

 

上标CPI为保守策略迭代[KL02],提出了该目标

 

 

4 Adaptive KL Penalty Coefficient

另一种方法是对KL散度进行惩罚,并对惩罚系数进行调整,以便每次策略更新时都达到KL散度dtarg的某个目标值。这种方法可以作为截断代理目标的替代或补充。我们发现KL惩罚比裁剪替代目标表现更差,但是,我们在这里包括它,因为它是一个重要的基线。 

 

5 Algorithm

 

 

 

 

 

7结论

我们介绍了近端策略优化,这是一种策略优化方法族,使用随机梯度上升的多个时期来执行每次策略更新。这些方法具有信任域方法的稳定性和可靠性,但实现起来要简单得多,只需要对普通策略梯度实现进行几行代码更改,适用于更一般的情况(例如,当为策略和值函数使用联合架构时),并且具有更好的整体性能。

相关文章:

  • ARM KEIL流程_job
  • [ Linux 长征路第二篇] 基本指令head,tail,date,cal,find,grep,zip,tar,bc,unname
  • SpringBoot——快速整合EasyExcel实现Excel的上传下载
  • Vue 国际化之 vue-i18n 的使用
  • 7、Java——for循环打印九九乘法口诀表
  • 目标检测 YOLO 系列模型
  • Java开发五年跳槽涨薪从12K到35K,靠“狂刷”九遍面试题
  • DM数据库安装,docker镜像
  • 项目中的traceID
  • Webview+Viewpager左右滑动冲突
  • 【 C++ 】多态
  • jupyter 基本用法
  • Unity入门01——unity界面基础
  • 【05】Yarn
  • Flutter 从源码看Getx的依赖原理
  • 【附node操作实例】redis简明入门系列—字符串类型
  • flutter的key在widget list的作用以及必要性
  • Iterator 和 for...of 循环
  • Promise初体验
  • SAP云平台运行环境Cloud Foundry和Neo的区别
  • Swift 中的尾递归和蹦床
  • vue从创建到完整的饿了么(11)组件的使用(svg图标及watch的简单使用)
  • Yeoman_Bower_Grunt
  • 测试如何在敏捷团队中工作?
  • 基于webpack 的 vue 多页架构
  • 离散点最小(凸)包围边界查找
  • 聊聊hikari连接池的leakDetectionThreshold
  • 前端每日实战:70# 视频演示如何用纯 CSS 创作一只徘徊的果冻怪兽
  • 使用agvtool更改app version/build
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 使用权重正则化较少模型过拟合
  • 微信小程序开发问题汇总
  • # 计算机视觉入门
  • #define 用法
  • (14)Hive调优——合并小文件
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (八)五种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (附源码)spring boot基于小程序酒店疫情系统 毕业设计 091931
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (剑指Offer)面试题34:丑数
  • (四)汇编语言——简单程序
  • (一)RocketMQ初步认识
  • (已解决)Bootstrap精美弹出框模态框modal,实现js向modal传递数据
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • .bat批处理(四):路径相关%cd%和%~dp0的区别
  • .Net Attribute详解(上)-Attribute本质以及一个简单示例
  • .NET CF命令行调试器MDbg入门(四) Attaching to Processes
  • .Net Core与存储过程(一)
  • .Net 访问电子邮箱-LumiSoft.Net,好用
  • .Net程序猿乐Android发展---(10)框架布局FrameLayout
  • .net和php怎么连接,php和apache之间如何连接
  • .NET中使用Protobuffer 实现序列化和反序列化
  • .set 数据导入matlab,设置变量导入选项 - MATLAB setvaropts - MathWorks 中国
  • ??myeclipse+tomcat
  • @converter 只能用mysql吗_python-MySQLConverter对象没有mysql-connector属性’...