当前位置: 首页 > news >正文

上海网站建设哪里好建设一个网站预算

上海网站建设哪里好,建设一个网站预算,新网页游戏开服表,郑州抖音推广分类目录#xff1a;《深入理解强化学习》总目录 根据智能体学习的事物不同#xff0c;我们可以把智能体进行归类。基于价值的智能体#xff08;Value-based agent#xff09;显式地学习价值函数#xff0c;隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。…分类目录《深入理解强化学习》总目录 根据智能体学习的事物不同我们可以把智能体进行归类。基于价值的智能体Value-based agent显式地学习价值函数隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体Policy-based Agent直接学习策略我们给它一个状态它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了Actor-Critic智能体Actor-Critic Agent。这一类智能体把策略和价值函数都学习了然后通过两者的交互得到最佳的动作。本文就将介绍有模型强化学习智能体和免模型强化学习智能体的区别。 我们可以通过智能体到底有没有学习环境模型来对智能体进行分类。 有模型Model-based强化学习智能体通过学习状态的转移来采取动作。 免模型Model-free强化学习智能体没有去直接估计状态的转移也没有得到环境的具体转移变量它通过学习价值函数和策略函数进行决策。免模型强化学习智能体的模型里面没有环境转移的模型。 我们可以用马尔可夫决策过程来定义强化学习任务并将其表示为四元组 S , A , P , R S, A, P, R S,A,P,R即状态集合、动作集合、状态转移函数和奖励函数。如果这个四元组中所有元素均已知且状态集合和动作集合在有限步数内是有限集则智能体可以对真实环境进行建模构建一个虚拟世界来模拟真实环境中的状态和交互反应。 具体来说当智能体知道状态转移函数 P ( s t 1 ∣ s t , a t ) P(s_{t1}|s_t, a_t) P(st1​∣st​,at​)和奖励函数 R ( s t , a t ) R(s_t, a_t) R(st​,at​)后它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态这样智能体就不需要在真实环境中采取动作直接在虚拟世界中学习和规划策略即可。这种学习方法称为有模型强化学习。 有模型强化学习的流程如下图所示 然而在实际应用中智能体并不是那么容易就能知道马尔可夫决策过程中的所有元素的。通常情况下状态转移函数和奖励函数很难估计甚至连环境中的状态都可能是未知的这时就需要采用免模型强化学习。免模型强化学习没有对真实环境进行建模智能体只能在真实环境中通过一定的策略来执行动作等待奖励和状态迁移然后根据这些反馈信息来更新动作策略这样反复迭代直到学习到最优策略。 针对是否需要对真实环境建模强化学习可以分为有模型强化学习和免模型强化学习。有模型强化学习是指根据环境中的经验构建一个虚拟世界同时在真实环境和虚拟世界中学习免模型强化学习是指不对环境进行建模直接与真实环境进行交互来学习到最优策略。 总之有模型强化学习相比免模型强化学习仅仅多出一个步骤即对真实环境进行建模。因此一些有模型的强化学习方法也可以在免模型的强化学习方法中使用。在实际应用中如果不清楚该用有模型强化学习还是免模型强化学习可以先思考在智能体执行动作前是否能对下一步的状态和奖励进行预测如果能就能够对环境进行建模从而采用有模型学习。 免模型强化学习通常属于数据驱动型方法需要大量的采样来估计状态、动作及奖励函数从而优化动作策略。例如在雅达利平台上的《太空侵略者》游戏中免模型的深度强化学习需要大约两亿帧游戏画面才能学到比较理想的效果。相比之下有模型的深度强化学习可以在一定程度上缓解训练数据匮乏的问题因为智能体可以在虚拟世界中进行训练。 免模型学习的泛化性要优于有模型强化学习原因是有模型强化学习算需要对真实环境进行建模并且虚拟世界与真实环境之间可能还有差异这限制了有模型强化学习算法的泛化性。 有模型的强化学习方法可以对环境建模使得该类方法具有独特魅力即“想象能力”。在免模型强化学习中智能体只能一步一步地采取策略等待真实环境的反馈有模型强化学习可以在虚拟世界中预测出将要发生的事并采取对自己最有利的策略。 目前大部分深度强化学习方法都采用了免模型强化学习这是因为免模型强化学习更为简单、直观且有丰富的开源资料如AlphaGo系列都采用免模型强化学习在目前的强化学习研究中大部分情况下环境都是静态的、可描述的智能体的状态是离散的、可观察的如雅达利游戏平台这种相对简单、确定的问题并不需要评估状态转移函数和奖励函数可直接采用免模型强化学习使用大量的样本进行训练就能获得较好的效果。 如下图所示我们可以把几类模型放到同一个图里面。下图有3个组成成分价值函数、策略和模型。按一个智能体具有三者中的三者、两者或一者的情况可以把它分成很多类 参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022
http://www.yutouwan.com/news/499042/

相关文章:

  • 上海专业做网站建设如何做wordpress 搜索结果页
  • 网站建设哪家好网站建设哪家好网站建设哪家手机app制作报价
  • 网站开发方向 英语翻译wordpress插件机制
  • 自设计网站网站建设法语
  • 企业网站优化应该怎么做茂名网站建设制作
  • 谷歌seo站内优化网站风格细节
  • php 网站换空间沈阳网站排名公司
  • 网站seo 规范百度搜索一下就知道
  • 国家电网建设部网站官网小程序定制外包
  • 黄山网站建设哪家好母婴网站的功能设计
  • 建网站哪家质量好如何提高网站速度
  • 广州建设网站首页公司网站建设精英
  • 安全的网站建阿里巴巴官网入口
  • 推广 网站建设小程序问答库
  • 冯提莫斗鱼前在哪个网站做直播微信开放平台是干什么的
  • 做旅游网站的设计感想可视化建站工具
  • 北京市基础建设质量监督局网站昆明微网站搭建哪家好
  • 怎么给自己的网站设置关键词湖南网站建设 尖端磐石网络
  • 外贸网站建设收款通道全球搜索引擎网站
  • 怎么知道网站被百度k了网站开发用 c php
  • 国内知名摄影网站建站软件免费模板
  • 移动网站建设推广临淄区最新招聘信息
  • 为什么大家用wordpress建网站建设工程网站建筑工程预算
  • 网站屏蔽ip怎么制作美图素材图片
  • 广州专业网站建设有哪些网络营销案例及分析
  • 通过招聘网站如何做背景调查做网站先做前台还是后台
  • 平果县免费网站哪家好优化是什么意思?
  • 官方网站哪家做的最好西安制作标书的公司
  • 邢台县建设局网站wordpress页尾添加信息
  • wordpress多站点统计如何建立自己的超市网站