当前位置: 首页 > news >正文

青岛移动网站开发宁波外贸公司招聘信息

青岛移动网站开发,宁波外贸公司招聘信息,临沂企业网站开发官网,html旅游网站页面设计模板强化学习算法总结 (1) 1.综述 强化学习是通过与环境进行交互#xff0c;来实现目标的一种计算方法。 s − a 1 − r − s ′ s - a_1 - r- s s−a1​−r−s′ 1.1强化学习优化目标 p o l i c y a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy ar…强化学习算法总结 (1) 1.综述 强化学习是通过与环境进行交互来实现目标的一种计算方法。 s − a 1 − r − s ′ s - a_1 - r- s s−a1​−r−s′ 1.1强化学习优化目标 p o l i c y a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy argmax_{policy} E_{(a,s)}[reward(s,a)] policyargmaxpolicy​E(a,s)​[reward(s,a)] 强化学习的最终目标是最大化智能体策略在和环境交互中获得的reward。通过改变策略来调整智能体和环境交互数据的分布。 1.2 平衡与探索 ​ 策略告诉我们应该采取哪些动作同时也要对新的策略进行探索。 这里引入一个概念为懊悔值当前动作a的收益与最优结果的差距 ϵ − g r e e d y \epsilon - greedy ϵ−greedy 策略 i f : 采样概率 1 − ϵ a t a e g m a x Q a e l s e : 随机策略 if:采样概率1 - \epsilon \\ a_t aegmaxQa\\ else:\\ 随机策略 if:采样概率1−ϵat​aegmaxQaelse:随机策略 但是结果来看积累的懊悔值是和和时间成正比的因为随机拉杆的探索概率是固定的 上置信界法UCB a t a r g m a x α [ Q ( A ) ] a_t argmax_\alpha [Q(A)] at​argmaxα​[Q(A)] 汤普森采样 2. 马尔科夫决策过程 MDP利用当前已知的信息就可以决定未来 采样根据状态转移矩阵生成一个状态序列 s 1 − s 2 − . . . − s n s_1 - s_2 - ...- s_n s1​−s2​−...−sn​ 2.1 马尔科夫奖励过程 在决策过程中加入了奖励函数r和折扣因子形成了马尔科夫奖励过程 S , P , r , γ S,P,r,\gamma S,P,r,γ,状态集合状态转移矩阵奖励函数折扣因子 G t R t γ R t 1 . . . ∑ γ k R t k G_t R_t \gamma R_{t1}... \sum \gamma^k R_{tk} Gt​Rt​γRt1​...∑γkRtk​ 价值函数 V ( s ) E [ G t ∣ S t s ] 我们把 G t 拆开 R t γ V ( s t 1 ) 而后面的 E ( γ V ( s t 1 ∣ s t s ) ) 用状态转移函数表示 V ( s ) r ( s ) γ ∑ P ( s ′ ∣ s ) V ( s ′ ) V(s) E[G_t |S_t s]\\我们把G_t 拆开R_t \gamma V(s_{t1}) 而后面的E(\gamma V(s_{t1}|s_t s)) 用状态转移函数表示\\V(s) r(s) \gamma\sum P(s|s)V(s) V(s)E[Gt​∣St​s]我们把Gt​拆开Rt​γV(st1​)而后面的E(γV(st1​∣st​s))用状态转移函数表示V(s)r(s)γ∑P(s′∣s)V(s′) 只适用于规模比较小的马尔科夫过程计算价值函数不然使用 MCTD动态规划等算法 2.2 马尔科夫决策过程 MDP;S,A,P,r, γ \gamma γ:这里不再使用状态转移矩阵而是状态转移函数 S:状态合集A:动作合集 γ \gamma γ:折扣因子r(s,a)奖励函数收到了s和a影响P(s’|s,a)状态转移函数 策略 π ( a ∣ s ) P ( A t a ∣ S t s ) \pi(a|s) P(A_t a| S_t s) π(a∣s)P(At​a∣St​s):表示当前状态下采取这个策略a的概率。如果是一个随机策略输出是关于动作的概率分布函数 状态价值函数 V π E π [ G t ∣ S t s ] V^{\pi} E_{\pi}[G_t | S_t s] VπEπ​[Gt​∣St​s] 当前状态下预计未来的收益 动作价值函数 Q π ( s , a ) E π [ G t ∣ S t s , A t a ] Q^{\pi}(s,a) E_\pi[G_t | S_t s ,A_t a] Qπ(s,a)Eπ​[Gt​∣St​s,At​a] 在遵循当前策略下执行动作a的收益 V π ( s ) ∑ π ( a ∣ s ) Q π ( s , a ) V^\pi(s) \sum\pi(a|s) Q^\pi (s,a) Vπ(s)∑π(a∣s)Qπ(s,a) 贝尔曼期望方程 Q π ( s , a ) E π [ R t γ Q π ( s ′ , a ′ ) ∣ S t s , A t a ] r ( s , a ) γ ∑ V ( s ′ ) r ( s , a ) γ ∑ P ( s ′ ∣ a , s ) ∑ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^\pi (s,a) E_\pi[R_t\gamma Q^\pi(s,a)|S_t s,A_t a] \\ r(s,a) \gamma\sum V(s) \\ r(s,a) \gamma\sum P(s|a,s)\sum \pi(a|s)Q^\pi(s,a) Qπ(s,a)Eπ​[Rt​γQπ(s′,a′)∣St​s,At​a]r(s,a)γ∑V(s′)r(s,a)γ∑P(s′∣a,s)∑π(a′∣s′)Qπ(s′,a′) V π ( s ) E π [ R t γ V π ( s ′ ) ∣ S t s ] ∑ π ( a ∣ s ) ( r ( s , a ) γ ∑ P ( s ′ ∣ s , a ) V π ( s ′ ) ) V^\pi(s) E_\pi[R_t\gamma V^\pi(s)|S_t s] \\\sum\pi(a|s)(r(s,a)\gamma\sum P(s|s,a)V^\pi(s)) Vπ(s)Eπ​[Rt​γVπ(s′)∣St​s]∑π(a∣s)(r(s,a)γ∑P(s′∣s,a)Vπ(s′))
http://www.sadfv.cn/news/90839/

相关文章:

  • 网站制作及维护合同企业营销网站策划
  • 广州网站建设大公司排名为网站做IPhone客户端
  • 素材网站的素材可以商用吗wordpress租车
  • 外贸公司网站有哪些网站盈利模式分析怎么做
  • 建网站免费吗公司网站建设技术方案
  • 企业网站开发软件如何选择模板网站建设
  • 系统学做网站律师网站模版
  • 成都 网站网站设计申请书
  • 沈阳网站建设方案模板网站用户推广
  • 莱西市建设局网站为什么网站显示建设中
  • 做团购网站的公司网站的域名空间
  • 电子商务网站建设和管理的意义申请网站步骤
  • o2o网站建设流程wordpress 文章输出
  • 如何使用阿里云服务器建设网站微网站外链
  • 智能网站建设维护公众号怎么发布
  • 新素材网站建设网站常见问题
  • 电商网站有什么好的外贸平台
  • 做的网站在百度上搜不出来的兄弟网站制作
  • 生成静态网站怎么建站网站
  • 红衫中国网站建设wordpress+插件+h5
  • 龙华新区网站建设wordpress如何修改字体大小
  • 瑞安建设公司网站软文广告经典案例分析
  • 泰州整站优化泰安民生网
  • 巩义网站优化凡科网站建设之后怎么删除
  • 网站建设 贸易福州产品网页制作的公司
  • 哪个网站可以做店招店标轮播html5网站引导页
  • 济南专业制作网站网站如何做标题优化
  • 动易学校网站管理系统 漏洞重庆手机网站推广资料
  • 免费网站下载直播软件广州市城乡建设局
  • 徐州做网站建设上海市工程建设交易中心网站