当前位置: 首页 > news >正文

太原哪家网站建设公司好最近三天的国内新闻

太原哪家网站建设公司好,最近三天的国内新闻,一个网站如何做cdn加速器,机械加工网上平台吴恩达《机器学习》学习笔记十二——机器学习系统一、设计机器学习系统的思想1.快速实现绘制学习曲线——寻找重点优化的方向2.误差分析3.数值估计二、偏斜类问题#xff08;类别不均衡#xff09;三、查准率P与召回率R——代替准确率的评估指标四、查准率与召回率的权衡——… 吴恩达《机器学习》学习笔记十二——机器学习系统一、设计机器学习系统的思想1.快速实现绘制学习曲线——寻找重点优化的方向2.误差分析3.数值估计二、偏斜类问题类别不均衡三、查准率P与召回率R——代替准确率的评估指标四、查准率与召回率的权衡——F1-Score上次笔记主要介绍评估机器学习模型的方法从偏差、方差来分析模型可能拥有的问题从而应该采取什么相应的措施。介绍了偏差、方差与欠拟合、过拟合之间的关系以及正则化对偏差、方差的影响还介绍了一些曲线图帮助分析这些都是实践中很重要的建议相比毫无目的地随便选择优化方法通过评估分析之后可以排除一些无意义的选项节省了大量宝贵的时间。 上次笔记链接https://blog.csdn.net/qq_40467656/article/details/107525426 这次笔记继续介绍一些机器学习系统实际使用时会遇到的一些问题以及相应的解决方案。 一、设计机器学习系统的思想 1.快速实现绘制学习曲线——寻找重点优化的方向 当要开始做一个机器学习的系统时一般来说最好的办法不是一开始就建立一个很复杂的有许多复杂特征的系统而是通过一个简单的算法来快速地实现它即使这个简单的东西不是很完美然后通过交叉验证集来测试数据。 做完上述的之后就可以画出相应的学习曲线通过学习曲线以及检验误差来找出你的算法是否存在高偏差或高方差或其他一些的问题在作出这些分析之后再来决定是否使用更多的数据或者特征等等。这种方法在你刚刚开始解决一个机器学习的问题的时候能起到很好的作用因为你并不能预知你是需要更多的特征还是更多的数据或者是别的东西在缺乏各种证据的情况下很难提前知道这些信息因为你没有画出学习曲线所以很难决定把时间花在哪里。 所以很多时候一开始应当先进行一次简单快速地实现然后画出学习曲线来帮助你进行之后的判断。可以把它想成是在你编程的时候你要避免出现过早优化的问题这种思想告诉我们应该用实际的证据来指导我们的决策来决定把时间花在哪里而不是仅凭直觉。上述思想如下图所示 2.误差分析 当实现比如一个垃圾邮件分类器的时候会经常观察交叉验证集的情况然后看一看那些被错误分类的文件。通过查看这些被错误分类的垃圾邮件和非垃圾邮件有什么共同的特征和规律这样做多了以后这个过程就会启发你应该设计怎样的新特征或是告诉你现在的系统有什么优点和缺点然后指导你想出办法来改进它。 举一个具体的例子假如在做一个垃圾邮件分类器然后在你的交叉验证集中有500个样本假如在这个例子中错误率较高它错误分类了100个交叉验证样本如下图所示 那么现在要做的就是手动核查着100个错误然后手工为它们分类同时要考虑这些邮件是什么类型的邮件有什么线索或者特征能帮助算法正确的进行分类。比如经过手动核查后发现错误分类的邮件是以下的情况 对于错误比较多的类别就应该多关注一下多找一些特征来区别它们进而进行改进。 因此这样的误差分析是一种手动地去检查算法所出现的失误的过程它能引导你走向最有成效的道路。这也是为什么要先通过一种比较简单的算法先实现的原因我们要做的是找到一些最难以分类的类别而对于不同的学习算法来说对它们造成困难的样本总是相似的通过一个简单粗暴的算法实现你可以很快的找到算法的不足所在和难以处理的样本的类型然后把精力集中在它们身上。 3.数值估计 在改进学习算法时另一个技巧是保证自己对学习算法有一种数值估计的方法。当改进学习算法时如果你的算法能够返回一个数值评价指标来估计算法执行的效果将会很有帮助。 可能算法是准确的也可能是错误的但这个数字能告诉你你的学习算法效果有多好先看一个例子 当遇到是否应该把discount、discounts、discounted和discounting这几个单词当作有相同的含义时可能会考虑是否使用stemming软件一种词干提取软件那么我们就可以通过比较使用前后系统的错误率的变化来判断是否应该使用。图中所示不使用的错误率是5%使用后的错误率是3%显然有了这样的数值比较抉择起来会很容易。 当你改进学习算法时你总是要去尝试很多新主意和新版本的算法如果你每次试用新方法都手动地去检测这些例子看看表现的好不好会让你很难去决定到底应不应该这么做。但是通过一个单一规则的数值评价指标你可以观察误差率是变大了还是变小了你可以通过它更快地实践你的新想法它能直接告诉你你的想法能提高还是降低学习算法的表现这会大大加速你的进程。 二、偏斜类问题类别不均衡 从一个例子来理解偏斜类问题 训练一个逻辑回归模型来判断患者是否患有癌症假设我们训练的这个模型在测试集上的错误率只有1%。但是如果只有0.5%的患者是有癌症的这时即使不用任何算法直接将所有患者都预测为无癌症错误率也只有0.5%比使用了机器学习算法后获得的错误率还要低。 这种情况经常发生在正例和负例的比率非常接近于一个极端情况的时候。在本例中正样本的数量与负样本的数量相比非常非常少把这种情况叫做偏斜类。一个类的数据与另一个类相比多很多此时使用分类误差或分类精确度来作为评估度量可能会产生如下问题有时候只看准确率无法衡量一个算法的好坏无法确定真的提升了算法的质量。 三、查准率P与召回率R——代替准确率的评估指标 所以在遇到偏斜类问题时我们希望有一个不同的误差度量值或评估度量值。下面介绍两种评估度量值查准率与召回率。 首先要定义一些概念 当真实类别与预测的类别都为1时的数据我们称之为真阳性True Positive真实类别为1预测类别为0的称之为假阳性False Positive真实类别为0预测类别为1的称之为假阴性False Negative真实类别与预测类别都为0的称之为真阴性True Negative如上图所示。 然后再来看查准率与召回率的定义 查准率Precision是指在所有预测为真的数据中真实标签为真的数据的比例公式如下图所示可以看出查准率越高越好。 而召回率Recall是指在所有真实标签为真的数据中被预测正确即也为真的比例公式如下图所示自然也是越高越好。 通过计算查准率与召回率我们就可以更好地知道分类模型到底好不好针对上述提及的癌症分类的偏斜类问题如果我们将所有的数据全都预测为无癌症0/假那么召回率就变成0由此得知这不是一个好的算法。 拥有高查准率和高召回率的模型是一个好的分类模型这给予了我们一个更好的评估值给予了一种更直接的方法来评估模型的好坏。 四、查准率与召回率的权衡——F1-Score 在很多应用中我们希望能够保证查准率与召回率的相对平衡。先来看一下查准率与召回率有什么联系 还是在这个癌症分类的逻辑回归模型上如果我们的目标是尽可能的减少患者的心理负担即只有很确定时才宣布患有癌症y1不然不判定为癌症y0。 当我们将分类的阈值从0.5改为0.7或者是0.9时这就意味着在概率达到90%时才判定为有癌症这样的话判断有癌症的数据中真的有癌症的比例就会变大即查准率会变大而与此同时所有真实有癌症的数据中被预测为有癌症的可能性就有所下降毕竟概率要求变高原本一些低概率的现在被预测为无癌症了即召回率会变小。 考虑另外一种情况假设我们希望避免遗漏掉患有癌症的患者即希望避免假阴性。换句话说如果一个患者确实患有癌症但是我们没有告诉他患有癌症那这可能造成严重的后果。 这时的分类阈值将会设置的小一些比如0.3因为希望更多的患者被预测为有癌症从而进一步接受治疗。那么与上一个情况相反这将拥有高召回率低查准率。 所以对于大多数的回归模型你得权衡查准率与召回率通过改变“阈值”来得到想要的高查准率或是高召回率它们之间的关系如下图所示一个高一个就低 那么现在又有一个问题当你有几个算法时或者同一个算法但是“阈值”不同时得到的查准率与召回率都是不一样的我们怎样决定哪一个是最好的呢当只有一个评价度量时可以直接比较但是现在有两个该怎么综合考虑呢 有一种结合查准率和召回率的的方式叫做F值F-Score公式如下图所示分值越高则说明该模型最好
http://www.sadfv.cn/news/165258/

相关文章:

  • 新乡手机网站建设服务群晖wordpress搭建网站
  • 网上做任务网站logo设计制作网站
  • 百度竞价网站源码网站建设7个主要流程图
  • 常州网站建设系统长沙seo网站管理
  • 网站开发技术要求网站原创文章不收录
  • 做网站可以不买域名和主机吗汉中做网站的电话
  • 中英文的网站开发建设行业门户网站需要什么条件
  • 高端网站设计品牌wordpress 首页展示
  • 温州外贸企业网站建设女生做ui设计
  • 淘宝网站建设概要wordpress插件汉化包
  • 网站备案前置审批文件卫浴品牌排行榜前十名
  • 企业网站的优缺点有做火币网这种网站的吗
  • 佛山市南海区城乡建设局网站ps如何做游戏模板下载网站
  • 个人网站如何赚钱公司网站开发项目
  • 江苏建筑网站中国建设银行网站密码是什么
  • 站长之家网址ip查询哪家企业做网站好
  • 网站服务器防护湖南建设工程招标网
  • 机械类 网站源码保险公司网站
  • 备案的网站做跳转不影响备案把国家备案查询系统
  • 天马网络 网站建设各级院建设网站的通知
  • 什么网站可以发布有偿做项目用vue开发的网站
  • 网站建设骗wordpress4.94版
  • asp简单网站开发哪些网站可以做招商广告
  • 网站编程基础重庆知名做网站的公司
  • 活泼的网站网站空间托管合同 .doc
  • 百事企业的网站建设类型网站开发优秀论文
  • 网站建设用免费素材wordpress子站点打不开
  • 网站建设相关资料文件企业网站建设系统
  • 门户网站网站制作wordpress 信息查询插件
  • 网站主要盈利模式企业网站推广的方法有搜索引擎推广