当前位置: 首页 > news >正文

手机网站设计欣赏网站页面精美的网站

手机网站设计欣赏网站,页面精美的网站,如何创建自己的网店,泉州网站建设培训1 概述 “猜你喜欢”是美团流量最大的推荐展位#xff0c;位于首页最下方#xff0c;产品形态为信息流#xff0c;承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代#xff0c;目前“猜你喜欢”基线策略的排序模型是业界领先的流式更… 1 概述 “猜你喜欢”是美团流量最大的推荐展位位于首页最下方产品形态为信息流承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代目前“猜你喜欢”基线策略的排序模型是业界领先的流式更新的WideDeep模型[1]。考虑Point-Wise模型缺少对候选集Item之间的相关性刻画产品体验中也存在对用户意图捕捉不充分的问题从模型、特征入手更深入地理解时间仍有推荐体验和效果的提升空间。近年来强化学习在游戏、控制等领域取得了令人瞩目的成果我们尝试利用强化学习针对以上问题进行优化优化目标是在推荐系统与用户的多轮交互过程中的长期收益。 在过去的工作中我们从基本的Q-Learning着手沿着状态从低维到高维动作从离散到连续更新方式从离线到实时的路径进行了一些技术尝试。本文将介绍美团“猜你喜欢”展位应用强化学习的算法和工程经验。第2节介绍基于多轮交互的MDP建模这部分和业务场景强相关我们在用户意图建模的部分做了较多工作初步奠定了强化学习取得正向收益的基础。第3节介绍网络结构上的优化针对强化学习训练不稳定、难以收敛、学习效率低、要求海量训练数据的问题我们结合线上A/B Test的线上场景改进了DDPG模型取得了稳定的正向收益。第4节介绍轻量级实时DRL框架的工作其中针对TensorFlow对Online Learning支持不够好和TF serving更新模型时平响骤升的问题做了一些优化。 2 MDP建模 在“猜你喜欢“展位中用户可以通过翻页来实现与推荐系统的多轮交互此过程中推荐系统能够感知用户的实时行为从而更加理解用户在接下来的交互中提供更好的体验。“猜你喜欢”用户-翻页次数的分布是一个长尾的分布在图2中我们把用户数取了对数。可知多轮交互确实天然存在于推荐场景中。 在这样的多轮交互中我们把推荐系统看作智能体Agent用户看作环境Environment推荐系统与用户的多轮交互过程可以建模为MDP ,a,r,p StateAgent对Environment的观测即用户的意图和所处场景。Action以List-Wise粒度对推荐列表做调整考虑长期收益对当前决策的影响。Reward根据用户反馈给予Agent相应的奖励为业务目标直接负责。P(s,a)Agent在当前State s下采取Action a的状态转移概率。 我们的优化目标是使Agent在多轮交互中获得的收益最大化 具体而言我们把交互过程中的MDP 建模如下 ,s,r,p 2.1 状态建模 状态来自于Agent对Environment的观察在推荐场景下即用户的意图和所处场景我们设计了如图4所示的网络结构来提取状态的表达。网络主要分为两个部分把用户实时行为序列的Item Embedding作为输入使用一维CNN学习用户实时意图的表达推荐场景其实仍然相当依赖传统特征工程因此我们使用Dense和Embedding特征表达用户所处的时间、地点、场景以及更长时间周期内用户行为习惯的挖掘。 这里我们介绍一下使用Embedding特征表达用户行为习惯挖掘的Binary Sequence[2] 方法。我们通过特征工程对用户行为序列做各种维度的抽象做成一些列离散的N进制编码表示每一位有N种状态。例如统计用户在1H/6H/1D/3D/1W不同时间窗口内是否有点击行为编码成5位2进制数把这些数字作为离散特征学习Embedding表达作为一类特征处理方法。除此之外还有点击品类是否发生转移、点击间隔的gap等等在“猜你喜欢”场景的排序模型和强化学习状态建模中都取得了很不错的效果。原因是在行为数据非常丰富的情况下序列模型受限于复杂度和效率不足以充分利用这些信息Binary Sequence可以作为一个很好的补充。 图5左侧是序列模型的部分分别使用不同的Pooling方式和一维CNN离线效果的对比右侧是Dense和Embedding特征的部分分别加入用户高频行为、距离、行为时间间隔、行为次数、意图转移等特征以及加入所有显著正向特征的离线效果。 2.2 动作设计 “猜你喜欢”目前使用的排序模型由两个同构的WideDeep模型组成分别以点击和支付作为目标训练最后把两个模型的输出做融合。融合方法如下图所示 超参数 $\phi$ 的物理意义是调整全量数据集中点击和下单模型的Trade Off通过综合考虑点击和下单两个任务的AUC确定没有个性化的因素。我们以此为切入点使用Agent的动作调整融合超参数令$score click \ast \left ( pay \phi \right )$ a是由Agent的策略生成Action这样做有两个好处其一我们知道一个较优解是a1这种情况下强化学习策略和基线的排序策略保持一致由于强化学习是个不断试错的过程我们可以很方便地初始化Agent的策略为a1从而避免在实验初期伤害线上效果。其二允许我们根据物理意义对Action做Clip从而减轻强化学习更新过程不稳定造成的实际影响。 2.3 奖励塑形 “猜你喜欢”展位的优化核心指标是点击率和下单率在每个实验分桶中分母是基本相同的因此业务目标可以看成优化点击次数和下单次数我们尝试将奖励塑形如下 相对于关注每个Item转化效率的Point Wise粒度的排序模型强化学习的目标是最大化多轮交互中的奖励收益为业务目标直接负责。 在实验过程中我们发现强化学习的策略可能上线初期效果很好在点击和下单指标上都取得了一定的提升但在后续会逐渐下降如图7前半段所示。在逐层转化效率的分析中我们发现强化学习分桶的设备曝光率和UV维度点击率有所降低而用户停留时长和浏览深度稳定提升这说明Agent学习到了让用户与推荐系统更多交互从而获取更多曝光和转化机会的策略但这种策略对于部分强烈下单意图用户的体验是有伤害的因为这部分用户意图转化的代价变高了因而对展位的期望变低。针对这种情况我们在奖励塑形中加入两个惩罚项 惩罚没有发生任何转化点击/下单行为的中间交互页面penalty1从而让模型学习用户意图转化的最短路惩罚没有发生任何转化且用户离开的页面penalty2从而保护用户体验。修正后的奖励为 由于用户体验是时间连续的UV维度的效果在报表上有一定的滞后性约一周后点击率和万订单恢复到正向水平同时用户停留时长和浏览深度有进一步提升说明Agent确实学到了在避免伤害用户的前提下从多轮交互中获取更多转化的策略如图7后半段所示。 这一节我们介绍了MDP建模相关的工作。MDP跟业务场景是强相关的经验不是很容易迁移。就本文的场景而言我们花了较多精力做状态表达的特征这部分工作使强化学习得到了在自己的目标上取得正向收益的能力因此对这部分介绍比较细致。动作设计是针对多目标模型融合的场景是个业界普遍存在并且监督学习不太适用的场景也能体现强化学习的能力。奖励塑形是为了缩小强化学习的目标和业务目标之间的Gap需要在数据洞察和业务理解上做一些工作。完成上述工作后强化学习在自己的目标和业务指标上已经能取得了一些正向效果但不够稳定。另外由于策略迭代是个Online Learning的过程实验上线后需要实时训练一周才能收敛并观察效果这也严重影响了我们的迭代效率。针对这些情况我们针对模型做了一些改进。 3 改进的DDPG模型 在模型方面我们在不断改进MDP建模的过程中先后尝试了Q-Learning、DQN[3]和DDPG[4]模型也面临着强化学习中普遍存在更新不够稳定、训练过程容易不收敛、学习效率较低这里指样本利用效率低因此需要海量样本的问题。具体到推荐场景中由于List-Wise维度的样本比Point-Wise少得多以及需要真实的动作和反馈作为训练样本因此我们只能用实验组的小流量做实时训练。这样一来训练数据量相对就比较少每天仅有几十万迭代效率较低。为此我们对网络结构做了一些改进包括引入具体的Advantage函数、State权值共享、On-Policy策略的优化结合线上A/B Test框架做了十数倍的数据增强以及对预训练的支持。接下来我们以DDPG为基石介绍模型改进的工作。 如图8所示基本的DDPG是Actor-Critic架构。线上使用Actor网络预测当前State下最好的动作a并通过Ornstein-Uhlenbeck过程对预测的Action加一个随机噪声得到a’从而达到在最优策略附近探索的目的。将a’ 作用于线上并从用户(Environment)获得相应的收益。训练过程中Critic学习估计当前状态s下采取动作a获得的收益使用MSE作为Loss Function 对参数求导 Actor使用Critic反向传播的策略梯度使用梯度上升的方法最大化Q估计从而不断优化策略 在确定性策略梯度的公式中$\theta$ 是策略的参数Agent将使用策略 $\mu \theta \left ( s \right )$ 在状态s 生成动作a$\rho ^{} \mu$ 表示该策略下的状态转移概率。在整个学习过程中我们不需要真的估计策略的价值只需要根据Critic返回的策略梯度最大化Q估计。Critic不断优化自己对Q(s,a)的估计Actor通过Critic的判断的梯度求解更好的策略函数。如此往复直到Actor收敛到最优策略的同时Critic收敛到最准确的Q(s,a)估计。 接下来基于这些我们介绍的DDPG模型改进的工作。 3.1 Advantage函数 借鉴DDQN[5]的优势函数Advantage的思路我们把critic估计的Q(s,a)拆分成两个部分只与状态相关的V(s)与状态、动作都相关的Advantage函数A(s,a)有Q(s,a) V(s) A(s,a)这样能够缓解critic对Q过高估计的问题。具体到推荐环境中我们的策略只是对排序模型的融合参数做调整收益主要是由状态决定的。 如图9所示在实际实验中观察V(s)和A(s,a)均值的比值大约为97:3可以验证我们的这一判断。在实际训练过程中我们先根据状态和收益训练V(s)再使用Q(s,a)-V(s)的残差训练A(s,a)很大程度上提升了训练稳定性并且我们可以通过残差较为直观地观测到到当前策略是否优于基线。图8中A(s,a)稳定大于0可以认为强化学习在自己的目标上取得了稳定的正向收益。 3.2 State权值共享 受A3C[6]网络的启发我们观察到DDPG的网络中Actor和Critic网络中都有State的表达而在我们的场景中大部分参数都集中在State的部分在十万量级其他参数只有数千因此我们尝试把State部分的权重做共享这样可以减少约一半的训练参数。 改进后的网络结构如图10所示。对于这个网络结构我们注意到有V(s)的分支和动作不相关意即我们不需要具体的Action也可以学习该State下Q的期望这就允许我们在线下使用基线策略千万级的数据量做预训练线上也同时使用基线和实验流量做实时更新从而提升训练的效果和稳定性。又因为这条更新路径包含了所有State的参数模型的大部分参数都可以得到充分的预训练只有Action相关的参数必须依赖Online Learning的部分这就大幅提高了我们的实验迭代效率。原来我们需要上线后等待一周训练再观察效果改进后上线第二天就可以开始观察效果。 3.3 On-policy 在A2C[7]的论文里作者论述了他们的见解同步A2C实现比异步实现的A3C表现要好。目前尚未看到任何证据证明异步引入的噪声能够提供任何性能收益因此为了提升训练效率我们采取了这个做法使用同一套参数估计Q_{t1}和更新Q_t从而使模型参数再次减半。 3.4 扩展到多组并行策略 考虑多组强化学习实验同时在线的情况结合A/B Test环境特点我们把以上网络框架扩展到多Agent的情况。 如图11所示线上多组实验共享State表达和V(s)的估计每个策略训练自己的A(s,a)网络且能快速收敛这样的结构一方面使训练过程更加稳定另一方面为强化学习策略全量提供了可能性。 在DDPG的改造工作中我们使用Advantage函数获得更稳定的训练过程和策略梯度。State权值共享和On-Policy方法使我们的模型参数减少75%。Advantage函数和State权值共享结合允许我们使用基线策略样本做数据增强使每天的训练样本从十万量级扩展到百万量级同时充分的预训练保证策略上线后能迅速收敛。经过这些努力强化学习线上实验取得了稳定的正向效果在下单率效果持平的情况下周效果点击率相对提升0.5%平均停留时长相对提升0.3%浏览深度相对提升0.3%。修改过的模型与A2C的主要区别是我们仍然使用确定性策略梯度这样我们可以少估计一个动作的分布即随机策略方差降至0的特例。图12表明强化实习的效果是稳定的由于“猜你喜欢”的排序模型已经是业界领先的流式DNN模型我们认为这个提升是较为显著的。 4 基于TF的轻量级实时DRL系统 强化学习通常是在一次次试错Trial-and-Error中学习实时地改进策略并获得反馈能大幅提升学习效率尤其在连续策略中。这一点在游戏场景下很容易理解相应地我们也在推荐系统中构建了实时深度学习系统让策略更新更加高效。为了支持实时更新的DRL模型和高效实验我们针对Online Learning的需求基于TensorFlow及TF Serving做了一些改进和优化设计并实现了一套特征配置化的实时更新的DRL框架在实验迭代过程中沉淀了DQN、DDQN、DDPG、A3C、A2C、PPO[8]等模型。系统架构如图13所示 训练部分工作流如下 Online Joiner从Kafka中实时收集特征和用户反馈拼接成Point-Wise粒度的Label-Feature样本并把样本输出到Kafka和HDFS分别支持在线和离线更新。Experience Collector收集上述样本合并为List-Wise的请求粒度并根据请求时间戳拼接成[ ]列表形式的MC Episode再经过状态转移计算拆分成 形式的TD Instance输出MC或TD格式的样本支持RL训练。 , ,Trainer做输入特征的预处理使用TensorFlow训练DRL模型。Version Controller负责调度任务保证实效性和质量并把训练完成且指标符合预期模型推送到TF Serving和Tair中这部分只需要Actor相关的参数。Tair作为弥补TF在Online Learning短板辅助的PS后面会具体介绍。Monitor监控和记录整个训练流程中的数据量和训练指标对不符合预期的情况发出线上告警。新模型上线前会先做离线的Pre-Train使用基线策略的数据学习State的表达和Value net。上线后实时同时更新ActorAdvantage和Value的参数。线上预测部分推荐系统的Agent从Tair获取预处理参数并将处理后的特征喂给TF Serving做前向传播得到Action并对展现给用户的排序结果做相应的干预。 针对TensorFLow对Online Learning支持比较弱Serving对千万级Embedding处理效率不高的问题我们做了一些改进 在线上特征的分布会随时间而改变针对Dense特征我们自己维护增量的Z-Score算法对特征做预处理。Embedding特征的输入维度也经常发生变化而TF不支持变长的Input Dimention为此我们维护了全量的ID-Embedding映射每次训练让模型加载当前样本集合中的高频Embedding。千万级Item Embedding会大幅降低训练和预测的效率为此我们把这部分映射在预处理中把映射后的矩阵直接作为CNN的输入。为了提升特征工程的实验效率支持特征配置化生成模型结构。此外TF serving在更新模型一两分钟内响应时间会骤然升高导致很多请求超时原因有二其一serving的模型加载和请求共用一个线程池导致切换模型使阻塞处理请求其二计算图初始化是lazy的这样新模型后的第一次请求需要等待计算图初始化。这个问题在更新模型频Low对online learning支持比较弱繁的Online Learning场景影响较大我们采用切分线程池和warm up初始化的方式解决。更具体的方案和效果可以参考美团另一篇技术博客[9]。5 总结和展望 强化学习是目前深度学习领域发展最快的方向之一其与推荐系统和排序模型的结合也有更多价值等待发掘。本文介绍了强化学习在美团“猜你喜欢”排序场景落地的工作包括根据业务场景不断调整的MDP建模使强化学习能够取得一定的正向收益通过改进DDPG做数据增强提升模型的鲁棒性和实验效率从而取得稳定的正向收益以及基于TensorFlow的实时DRL框架为高效并行策略迭代提供了基础。 经过一段时间的迭代优化我们在强化学习方面也积累了一些经验与传统的监督学习相比强化学习的价值主要体现在 灵活的奖励塑形能支持各种业务目标建模包括不限于点击率、转化率、GMV、停留时长、浏览深度等支持多目标融合为业务目标直接负责。充满想象空间的动作设计不需要直接的Label而是通过网络来生成和评价策略适合作为监督学习的补充。这点和GAN有相通之处。考虑优化长期收益对当前决策造成的影响Agent与Environment交互频繁的场景更加能体现强化学习的价值。同时强化学习作为机器学习的一个分支很多机器学习的经验仍然适用于此。比如数据和特征决定效果的上限模型和算法只是不断逼近它。对于强化学习而言特征空间主要包含在状态的建模中我们强烈建议在状态建模上多做一些尝试并信任模型有能力从中做出判断。再如使用更多的训练数据降低经验风险更少的参数降低结构风险的思路对强化学习仍然适用因此我们认为DDPG的改进工作能够推广到不同业务的线上A/B Test场景中。此外我们在训练过程中也遇到了强化学习对随机性敏感的问题[10]为此我们线上使用了多组随机种子同时训练选择表现最好的一组参数用于实际参数更新。 在目前的方案中我们尝试的Action是调整模型融合参数主要考虑这是个排序问题中比较通用的场景也适合体现强化学习的能力而实际上对排序结果的干预能力是比较有限的。未来我们会探索不同品类、位置、价格区间等跟用户意图场景强相关属性的召回个数调整排序模型隐层参数等方向。另外在解决学习效率低下的问题上还将尝试Priority Sampling 提高样本利用效率Curious Networks提升探索效率等方法。也欢迎对强化学习感兴趣的朋友们与我们联系一起交流探索强化学习在工业界的应用与发展同时对文章的错漏之处也欢迎大家批评指正。 参考文献 [1] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil, Zakaria Haque, Lichan Hong, Vihan Jain, Xiaobing Liu, and Hemal Shah. Wide deep learning for recommender systems. CoRR, 2016.[2] Yan, P., Zhou, X., Duan, Y. E-commerce item recommendation based on field-aware Factorization Machine. In: Proceedings of the 2015 International ACM Recommender Systems Challenge, 2015.[3] Mnih, Volodymyr, Kavukcuoglu, Koray, Silver, David, Rusu, Andrei A, Veness, Joel, Bellemare, Marc G, Graves, Alex, Riedmiller, Martin, Fidjeland, Andreas K, Ostrovski, Georg, et al. Humanlevel control through deep reinforcement learning. Nature, 2015.[4] Lillicrap, T., Hunt, J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., and Wierstra, D. Continuous control with deep reinforcement learning. In International Conference, 2015 on Learning Representations, 2016.[5] Wang, Z., de Freitas, N., and Lanctot, M. Dueling network architectures for deep reinforcementlearning. Technical report, 2015.[6] Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Tim-othy P. Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asyn-chronous methods for deep reinforcement learning. ICML, 2016[7] Y. Wu, E. Mansimov, S. Liao, R. Grosse, and J. Ba. Scalable trust-region method for deep reinforcementlearning using kronecker-factored approximation. arXiv preprint arXiv:1708.05144, 2017.[8] Schulman, J.; Wolski, F.; Dhariwal, P.; Radford, A.; and Klimov,O. Proximal policy optimization algorithms. arXiv preprintarXiv:1707.06347, 2017[9] 仲达, 鸿杰, 廷稳. 基于TensorFlow Serving的深度学习在线预估. MT Bolg, 2018[10] P. Henderson, R. Islam, P. Bachman, J. Pineau, D. Precup, and D. Meger. Deep reinforcement learningthat matters. arXiv:1709.06560, 2017.作者简介 段瑾2015年加入美团点评目前负责强化学习在推荐场景的落地工作。
http://www.sadfv.cn/news/243093/

相关文章:

  • 地方志网站建设方案东莞百度seo价格
  • 网站不被收录的原因网站开发.net
  • 做网站推广托管费用建设网站公司哪个好
  • 淄博做网站58同城推广关键词优化
  • 出国游做的好的网站南京网站开发公司哪家好
  • 响应式网站开发有哪些框架济南电商网站建设
  • 网站建设需要哪些工具与知识手机app用什么软件制作
  • 购物网站html模板下载石油网站编辑怎么做
  • 青岛有没有做网站的网站301做排名
  • 请上传网站应用水印图片建设初级中学网站
  • 网盘建网站宁波公司网站开发
  • 为什么企业建设银行网站打不开宣传商务型的网站
  • 网站建设情况登记表能力建设和继续教育中心网站
  • 商城网站开发费用一般是多少网站增加聊天
  • 杭州公司网站建设电话python破解wordpress
  • 花生壳 建设网站构建网站需要会什么
  • 集团门户网站建设方案长沙网警
  • 网站建设 概念股社交电商怎么入手
  • 58同城 网站建设北京天仪建设工程质量检测所网站
  • 利用帝国软件如何做网站公司网页申请
  • 网站建设实验步骤wordpress快速发文章
  • 事业单位网站后台建设方案wordpress模版下载
  • dedecms视频网站模板贵港建设局网站查询
  • 国外的做的比较优秀的网站有哪些无需注册免费的网站
  • 国外网站建站杭州 电子商务网站建设
  • 关于企业网站建设数据现状分析网站建立有哪些功能
  • 还有哪些方法让网站更加利于seoasp flash网站源码
  • 杭州网站推广宣传女生在建筑公司的职位
  • 企业宣传注册哪些论坛 网站好百度网址大全 官网首页
  • 想做个人域名网站怎么做编程基础知识入门