当前位置: 首页 > news >正文

宁津哪个网络公司做网站比较好织带东莞网站建设技术支持

宁津哪个网络公司做网站比较好,织带东莞网站建设技术支持,最近的新闻头条,做网站时怎样把文字放在中间本文转载自公众号#xff1a;浙大KG。作者#xff1a;汪寒#xff0c;浙江大学硕士#xff0c;主要研究方向为知识图谱和自然语言处理。应用场景在电商实际应用中#xff0c;每个商品都会被挂载到若干个场景#xff0c;以图结构中的节点形式存在。商品由结构化信息表示浙大KG。作者汪寒浙江大学硕士主要研究方向为知识图谱和自然语言处理。应用场景在电商实际应用中每个商品都会被挂载到若干个场景以图结构中的节点形式存在。商品由结构化信息表示以键值对Property:Value形式后称PV存在。场景LifeStyle的价值则在于打通商品实体之间的联通提供跨域的实体搭配因此新的商品必须要通过规则库中的规则挂载到特定的场景才能进入电商的运营体系。商品场景的样例如下图所示。图1 商品场景样例规则的作用则包括挂载新的商品以及为已有的商品新增挂载场景目前规则库中的规则主要由人工构造通过审核之后才能进入规则库商品场景挂载的规则特点是Body部分只由PV组成Head部分只包含单个场景。规则的形式如下人工构造规则的方法效率低人工成本高因此商品场景挂载规则学习任务就是利用算法从现有的商品场景数据中生成规则提高规则生成的效率降低人工成本。现有规则库中的规则样例如下表所示。Motivation目前业界常用的规则学习baseline是关联规则挖掘用于发现数据集中项与项之间的关系通过挖掘数据集中存在的频繁项集来生成规则。这种方法适合数据项之间没有差异的数据集比如著名的购物篮分析应用中不同的商品都可以看作是同种item。而在实际应用中常常需要挖掘不同类型数据项之间的规则数据集中的元素项之间存在差异不能简单地将所有数据项都看作同种item分析商品场景挂载数据可以看出商品的 PV 对与场景之间存在差异若将其视为同种数据项用通用的规则挖掘算法学习就舍弃了商品 PV 对与场景之间的挂载关系信息以及差异。且关联规则挖掘是通用的规则生成算法在频繁项挖掘阶段需要耗费大量时间挖掘无关的频繁项无法针对特定的规则进行优化所以关联规则挖掘算法无论是效率还是产出结果的指标都偏低。因此针对商品场景挂载数据生成规则需要用到task-specific 算法算法需要考虑到商品 PV 对与场景之间的差异以及挂载关系信息且生成的规则应满足 Body 部分为 PV 对Head 部分为单个场景的形式。算法描述首先分析数据商品由20-50个PV对组成每个商品会挂载到若干个场景而输出的规则的body部分为1-5个PV对head部分为单个场景。因此可以认为对一个商品的PV对赋予不同的权重就可以让这个商品挂载到不同的场景输出那些权重超过阈值的PV对作为body部分就可以得到一条规则从而就可以得到一个算法就是用一个神经网络来对PV对赋予权重在训练完毕后将高权重的PV输出作为规则的body部分。因此首先要解决的问题是如何设计一个神经网络模型来为PV对赋予权重PV对的权重是离散值0或10表示舍弃当前PV对1表示选择当前PV对作为body部分。把商品包含的PV对看作序列赋予权重的过程就是一个经典的序列决策过程而这个序列决策过程是没有标注数据的所以无法用监督学习训练但整个序列是有标注的即权重赋予后的PV对序列能否挂载到当前场景。因此可以把整个问题建模成一个强化学习问题训练一个智能体来完成权重赋予的过程。然后要解决的第二个问题是如何为这个智能体返回reward即如何判断智能体输出的PV对子序列可以让商品挂载到特定场景且这个子序列的长度不超过5。判断挂载是否正确可以看作是一个分类问题预训练一个FastText网络作为分类器输入为PV对序列输出为PV对序列所对应的类即场景来判断当前PV子序列能否分类到对应场景。同时在reward function中加入子序列长度项让智能体尽可能选择较短的子序列。模型模型包括两个部分一个用于对PV输出action的智能体Agent和一个用于返回reward的FastText模型结构图如图2所示。Agent由三个模块组成Input ModuleMemory ModuleAction Module。Input Module包括Property embeddingValue embedding以及LifeStyle EmbeddingProperty embedding和Value embedding拼接起来当作当前PV的embedding作为Memory Module的输入Memory Module则由一个双向LSTM组成利用LSTM网络的记忆功能让每个时间步输出的隐状态都能包含上下文的信息Action Module则包含一个单向LSTM和一个全连接层网络输入包含Memory Module在当前时间步的输出Agent在上一次输出的action以及当前商品所对应的LifeStyle embedding。在Agent对所有PV做完决策之后将action输出为1的PV作为FastText的输入FastText会输出当前输入的分类结果也就是场景挂载若分类正确则返回一个reward给Agent更新参数。图2 模型结构图模型训练首先需要预训练一个FastText模型来为Agent返回reward。所以要先把商品挂载场景构造成一个分类任务而在前面已经提到一个商品可能会挂载到多个场景对应到文本分类任务就是一个样本会有多个标签所以这里就把挂载数据构造成了一个多标签分类任务用的目标函数也是文本分类任务里常使用的交叉熵损失函数具体来说单个样本的损失函数为这里n表示标签的个数y_i 表示样本是否属于当前类p_i表示当前label对应的概率值由sigmoid计算后得到。而智能体的参数更新方式是policy gradient在监督学习中本文通常用交叉熵作为简化版的KL散度来衡量两个分布的差异单个样本的交叉熵损失函数如下这里t表示样本的长度y_i表示当前labelp_i表示当前label对应的概率值由softmax计算后得到。而强化学习则是没有label的用当前action所得到的reward来代替单个样本的损失函数如下这里a_i表示当前时间步Agent输出的action这个时候损失函数的作用就不是衡量两个分布的差异而是最大化得到正reward的动作的概率。 实验实验所用商品挂载数据集来自某电商网站的一个类目在实验开始前先对实验数据做了一些必要的预处理实验数据的预处理包括1. 对标题进行分词去掉停用词无关的标点符号以及单个字。2. 对包含多项的属性值进行切分切分成k个部分就形成k个PV。3. 去掉了一些没有信息量的属性项及其对应的属性值。4. 增加了属性项拥有属性对应属性值为该商品拥有的属性项。预处理结束后的数据集信息如表1所示表1 数据集统计信息在规则输出阶段智能体不再是从动作空间中按概率采样一个动作而是直接选择概率最大的动作得到所有预测正确的PV序列后计算每条raw规则的HC和Conf将满足要求的作为备选规则。最后生成的备选规则的body平均长度仅为2.12这十分符合规则的要求模型输出的规则样例如表2所示表2 输出规则样例从样例中可以看出智能体确实可以找到一到两个与某场景关联度极高的PV这证明了reward function中对输出PV序列长度的惩罚的有效性且规则从直观上看就很具有可行性说明本模型确实找到了商品PV与场景之间存在的模式并以规则的形式输出。最终模型生成了845条备选规则。  OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
http://www.sadfv.cn/news/155828/

相关文章:

  • 康巴什网站建设网站的排版问题
  • 加强公司网站建设wordpress 标签 结构
  • 云南网站建设公司排行江门seo方法
  • 陵水网站建设装修设计公司梅州建站规划
  • 国内做卷学习网站拼多多跨境电商平台
  • 个人网站建设素材深圳网站建设 百度一下
  • 迅速上排名网站优化高青网站建设yx718
  • 抖音网站怎么做东莞品牌网站建设费用
  • 黄山建设网站公司电话号码wordpress开发登录插件
  • 网站域名备案 更改吗东莞市seo网络推广哪家好
  • 如何影响网站排名wordpress 匿名评论
  • 旅游网站开发建设方案东营房产网
  • 网站建设创业规划书手机网站建设最新报价
  • 戒赌网站怎么做网站开发 旅游
  • 荆门市网站建设大连网站设计公司
  • 开发小网站一般多少钱一个大良网站制作公司
  • 全国建设项目竣工验收公示网站开发网站做图文水印逻辑
  • 深圳百度网站推广ps网页设计培训班
  • 长沙注册公司核名网站手机哪个网站好
  • 甘肃省网站建设咨询苏州园区属于哪个区
  • 市场营销实务福建搜索引擎优化
  • 住房和城乡建设部网站干部学院站长工具在线平台
  • 汕头智能模板建站免费视频素材网站
  • 网站建设介绍ppt模板下载南充移动网站建设
  • 免费建站网站建设手机网站建立教程
  • 行远金华网站建设公司原神网页设计作业
  • 健身网站开发方式遵义网站搭建公司哪家好
  • 宝山网站建设 网站外包网站建设困难
  • 网站站外推广方式有哪些个人工作室项目
  • 网站开发用什么语言开发的wordpress分类目录添加报错_标签不能添加