当前位置: 首页 > news >正文

百度网站优化手机创建网页

百度网站优化,手机创建网页,网站开发技术html,四川建设网和四川省公共资源交易信息网之前小夕因项目需要研究了一小阵子的不均衡#xff08;文本#xff09;分类问题#xff0c;不过没有研究的太过深入#xff0c;也没有总结出一套成体系的处理思路。正好今天发现数据挖掘大佬「微调」在知乎上写了一个言简意赅又很具有实际操作价值的回答#xff0c;于是搬… 之前小夕因项目需要研究了一小阵子的不均衡文本分类问题不过没有研究的太过深入也没有总结出一套成体系的处理思路。正好今天发现数据挖掘大佬「微调」在知乎上写了一个言简意赅又很具有实际操作价值的回答于是搬过来分享给大家啦相关方向的小伙伴记得点击文末阅读原文关注「微调」大佬哦。模型如何评价先谈谈这种极端的类别不平衡的评估问题我们一般用的指标有前两个是全局评估最后一个是点评估ROC曲线下的面积AUC_ROCmean Average PrecesionmAP指的是在不同召回下的最大精确度的平均值PrecisionRank k。假设共有n个点假设其中k个点是少数样本时的Precision。这个评估方法在推荐系统中也常常会用。选择哪个评估标准需要取决于具体问题。而在上线前怎么确定你的模型已经达标这个需要AB test每个公司都有不同的标准很难一概而论。重点是新系统至少要比现有系统在某方面有了提升而全新模型至少应该符合从业者的基本预期。也要认识到大部分情况下上线的模型都不可能是完美的我的个人建议是可以利用「已有的监督模型人工」做主动学习active learning。比如先上线一个不完美的模型每次将模型预测中最不确定的部分预测值在临界点附近的样本交给人工验证并重新训练逐步提高模型预测的精准度。如何解决问题至于如何处理数据不平衡的问题最传统的思路还是使用过采样和欠采样等。相关资料大家看的比较多的是08年的Survey Paper [1]比较新和前沿的做法可以参考[2]可以至少读一下Related Works部分了解一下这些年来常用的非平衡数据处理方法有哪些。比较科普的文章可以参考我的回答微调欠采样undersampling和过采样oversampling会对模型带来怎样的影响https://www.zhihu.com/question/269698662/answer/352279936里面也介绍了一些常用的工具。去年其实也写过一篇类似的文章可以参考如何处理数据中的「类别不平衡」https://zhuanlan.zhihu.com/p/32940093如果上述方法表现依然不好还有几个方法可供尝试有监督的集成学习可以先用采样的方法建立k个平衡的训练集每个训练集上单独训练一个分类器并对k个分类器结果取平均。一般在这种情况下每个平衡训练集上都需要使用比较简单的分类器如逻辑回归。其实在实际使用中这种方法不一定会比集成树模型更好可能还不如使用xgboost。但在复杂问题上多尝试一些手段是好的说不定有奇效。无监督的异常检测异常检测指的是从数据中找到那些异常值比如你案例中的“广告”。无监督的异常检测一般依赖于对于数据的假设比如广告和正常的文章内容很不相同那么一种假设是广告和正常文章间的欧式距离很大。无监督异常检测最大优势就是在不需要数据标签如果在对数据假设正确时效果甚至可以比监督学习更好尤其是当获取标签成本很高时。具体的科普文章可以参考我的回答微调数据挖掘中常见的『异常检测』算法有哪些https://www.zhihu.com/question/280696035/answer/417091151「异常检测」开源工具库推荐https://zhuanlan.zhihu.com/p/37132428 半监督异常集成学习如果把1和2的思路结合起来你可以试试半监督的方法具体做法可以参考[3]。简单而言你可以现在原始数据集上使用多个无监督异常方法来抽取数据的表示并和原始的数据结合作为新的特征空间。在新的特征空间上使用集成树模型比如xgboost来进行监督学习。无监督异常检测的目的是提高原始数据的表达监督集成树的目的是降低数据不平衡对于最终预测结果的影响。这个方法还可以和我上面提到的主动学习结合起来进一步提升系统的性能。当然这个方法最大的问题是运算开销比较大需要进行深度优化。高维数据上的半监督异常检测考虑到文本文件在转化后往往维度很高可以尝试一下最近的一篇KDD文章[4]主要是找到高维数据在低维空间上的表示以帮助基于距离的异常检测方法。总结来看我建议从以下顺序尝试直接在数据上尝试有监督的集成学习方法1直接在数据上使用多种无监督学习观察哪一类算法的效果更好方法2结合以上两点(方法3)如果以上方法都不管用尝试方法4使用方法1, 34时可以加入主动学习如果以上方法均不奏效最靠谱的还是找更多人做数据标注毕竟数据为王。从效果上看往往是「监督学习半监督学习无监督」能用监督就不要依赖无监督。数据挖掘项目的本质就是试错所以很难有确定的答案。抛开准确率不谈另外的重要因素包括系统的效率和耦合度。前者指的是运算开销后者指的是设计与维护开销这些在设计方案时都要考虑到。最终上线的版本不一定是最强力的那个往往是最适合的那个。参考文献[1] He, H. and Garcia, E.A., 2008. Learning from imbalanced data. IEEE Transactions on Knowledge Data Engineering, (9), pp.1263-1284.[2] Roy, A., Cruz, R.M., Sabourin, R. and Cavalcanti, G.D., 2018. A study on combining dynamic selection and data preprocessing for imbalance learning. Neurocomputing, 286, pp.179-192.[3] Zhao, Y.; Hryniewicki, M.K. XGBOD: Improving Supervised Outlier Detection with Unsupervised Representation Learning. In Proceedings of the International Joint Conference on Neural Networks (IJCNN), Rio, Brazil, 8–13 July 2018.[4] Pang, G., Cao, L., Chen, L. and Liu, H., 2018. Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier Detection. arXiv preprint arXiv:1806.04808.
http://www.sadfv.cn/news/183145/

相关文章:

  • 做涉黄的视频网站用什么服务器网站建设所需的硬件设备
  • 旅游便宜的网站建设能加速浏览器的加速器
  • 顺德品牌网站建设公司百度指数怎么查
  • 建设银行支行网站免费公司网站主页模板
  • 阿里云网站建设好用吗做ppt哪个网站好
  • 平面设计教程网站毕业设计网站建设软件项目
  • 关于公司网站建设情况的汇报wordpress首页在哪里修改
  • 临清设计网站自己做网站可以上传软件下载
  • asp 网站 内容静态化长安商城网站建设
  • 网站设计知识做看电视电影的网站赚钱
  • 凡客诚品正品官网推广优化关键词
  • 网站建设过程总结报告wordpress打造论坛
  • 美丽说网站建立的主要方式重庆第一门户网站
  • 网络建站模板优化设计七年级下册数学答案
  • 简单手机网站如何制作做公众号需要做网站吗
  • cdn网站加速 免备案免费素材网站psd
  • 自己做网站开网店个人做网站能备案吗
  • 网站建设意识形态北京科技网站建设
  • 电子商务网站建设与维护的考试建设网络道德教育网站的有效措施有
  • 糖果网站建设策划书公司装修工程
  • 东阳市建设规划局网站誉铭摄影网站
  • 淮安网站排名优化公司长沙做网站最好的公司
  • 网站模板 响应式wordpress联系表单
  • 长安网站定制wordpress 代码演示
  • 免费购物网站系统wordpress检索蜘蛛插件
  • 广州网站建设海珠信科好看的网站首页设计
  • 专业做甜点的网站网站开发费用是研发费用
  • 怎么样提升网站权重高中网站建设课程
  • 深圳做网站需要多少钱百度网页版主页网址
  • 新站网站建设如何利用seo赚钱