当前位置: 首页 > news >正文

成都网站系统开发高级搜索引擎技巧

成都网站系统开发,高级搜索引擎技巧,做网站图片无法显示的原因,2022世界足球排行榜表格型方法 概念 强化学习是一个与时间相关的序列决策的问题。 概率函数与奖励函数 概率函数定量地表达状态转移的概率#xff0c;其可以表现环境的随机性。但是实际上#xff0c;我们经常处于一个未知的环境中#xff0c;即概率函数和奖励函数是未知的。 时序差分法 …表格型方法 概念 强化学习是一个与时间相关的序列决策的问题。 概率函数与奖励函数 概率函数定量地表达状态转移的概率其可以表现环境的随机性。但是实际上我们经常处于一个未知的环境中即概率函数和奖励函数是未知的。 时序差分法 它结合了动态规划和蒙特卡罗的思想通过不断更新状态值函数或者动作值函数来学习最优策略。时序差分算法的特点是它不需要知道环境的完整模型也不需要等待一个完整的回合结束而是在每一步都可以进行学习和更新。 KaTeX parse error: \tag works only in display equations Sarsa法 Sarsa算法是一种时序差分学习的方法它是一种在线的强化学习算法即它在学习的过程中遵循和改进同一个策略。Sarsa算法的名称来源于它的更新公式即 Q ( s , a ) ← Q ( s , a ) α ( r γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a) \leftarrow Q(s,a) \alpha (r \gamma Q(s,a) - Q(s,a)) Q(s,a)←Q(s,a)α(rγQ(s′,a′)−Q(s,a)) 其中 s s s表示当前状态 a a a表示当前动作 r r r表示当前奖励 s ′ s s′表示下一个状态 a ′ a a′表示下一个动作 α \alpha α表示学习率 γ \gamma γ表示折扣因子 Q Q Q表示动作值函数。 Sarsa算法的步骤如下 初始化 Q ( s , a ) Q(s,a) Q(s,a)为任意值通常为0。选择一个初始状态 s s s并根据 Q Q Q和一个探索性的策略例如 ϵ \epsilon ϵ-贪心策略选择一个动作 a a a。重复以下步骤直到达到终止状态或者达到最大步数 执行动作 a a a观察得到的奖励 r r r和下一个状态 s ′ s s′。根据 Q Q Q和同样的探索性的策略选择下一个动作 a ′ a a′。根据上述的更新公式更新 Q ( s , a ) Q(s,a) Q(s,a)。将 s s s更新为 s ′ s s′将 a a a更新为 a ′ a a′。 重复步骤2和3直到 Q Q Q收敛或者达到最大回合数。 Sarsa算法的优点是它可以处理部分可观测Partially Observable的环境即不需要知道环境的完整模型Model也可以适应环境的变化Change。Sarsa算法的缺点是它的收敛速度较慢且可能陷入局部最优Local Optimum。 问题 为什么我们可以使用未来的总奖励来评价当前动作是好是坏 因为在现实世界中奖励往往是延迟的所以强化学习需要学习远期的奖励。我们一般会从当前状态开始把后续有可能会收到的奖励加起来计算当前动作的Q值让Q值可以真正代表当前状态下动作的真正价值。 但有的时候我们把目光放得太长远并不好。如果任务很快就结束那么考虑到最后一步的奖励无可厚非。但如果任务是一个持续的没有尽头的任务即持续式任务continuing task我们把未来的奖励全部相加作为当前的状态价值就很不合理。 蒙特卡洛法与时序差分法区别 蒙特卡洛方法是基于回合的更新即只有在一个回合结束后才可以进行学习和更新而时序差分方法是基于单步的更新即每一步都可以进行学习和更新。 蒙特卡洛方法是基于采样的估计即利用真实的回报来更新估计值而时序差分方法是基于自助的估计即利用当前的估计值来更新下一个估计值。 蒙特卡洛方法只能处理离散的任务即有终止状态的任务而时序差分方法可以处理连续的任务即没有终止状态的任务。 蒙特卡洛方法对初始值的选择比较鲁棒即最终的学习结果不受初始值的影响而时序差分方法对初始值的选择比较敏感即不同的初始值可能导致不同的学习结果。 简述同策略和异策略的区别呢 同策略和异策略的根本区别在于生成样本的策略和参数更新时的策略是否相同。对于同策略行为策略和要优化的策略是同一策略更新了策略后就用该策略的最新版本对数据进行采样对于异策略其使用任意行为策略来对数据进行采样并利用其更新目标策略。例如Q学习在计算下一状态的预期奖励时使用了最大化操作直接选择最优动作而当前策略并不一定能选择到最优的动作因此这里生成样本的策略和学习时的策略不同所以Q学习算法是异策略算法相对应的Sarsa算法则是基于当前的策略直接执行一次动作选择然后用动作和对应的状态更新当前的策略因此生成样本的策略和学习时的策略相同所以Sarsa算法为同策略算法。
http://www.sadfv.cn/news/319703/

相关文章:

  • 做网站的设计公司宁波做网站的大公司有哪些
  • 网站备案风险做网站是怎样赚钱的
  • 网站更换空间教程学校网站建立
  • 新建网站怎么做优化深圳做步步高的公司网站
  • 集团高端网站建设基因网站开发
  • 群晖做网站连接数据库嘉兴企业自助建站系统
  • html网站素材网h5下一页
  • 无锡网站制作怎么样郑州新闻发布会
  • 设计公司网站案例网站设计套餐
  • 国外的自建网站怎么做网站开发建设推荐
  • 做网站找哪家邢台生活网
  • 承德微网站开发seo推广员是做什么的
  • 网站建设上海网站建设邱杰wordpress
  • 上传的网站怎么打开使用iframe做网站
  • 九江做网站的公司哪里好深圳网站建设公司哪家
  • 作图网站都有哪些最好的网站建设用途
  • 产品外观造型设计优化网络推广外包
  • 宁海县城镇建设局网站wordpress主题 医疗
  • 网站pv uv是什么意思福建省建设工程造价站官方网站
  • 上网站 ftp国内有奖活动第一分享平台
  • 如何在网站建设远程教育门户网站建设信息化项目背景
  • 深圳全网营销推广平台宁波seo深度优化平台有哪些
  • 中国国家住房和城乡建设部网站首页ui网页界面设计素材
  • 高端网站建设开发微信网站 教程
  • 网站规划设计的一般流程注册网站能赚钱吗
  • 网站平台建设哪家公司好百度 网站改版了
  • 做视频怎样传到网站专业建设网站服务公司
  • 如何宣传网站平面设计培训素材
  • 苏州企业网站关键词优化机械加工小作坊如何接单
  • 可在哪些网站做链接php网站开发技术论文