当前位置: 首页 > news >正文

青岛网站做网站多少钱wordpress 安卓主题下载失败

青岛网站做网站多少钱,wordpress 安卓主题下载失败,建一个网站的程序,手机网站一般宽度做多大的简介 如果您还没有听过#xff0c;请告诉您一个事实#xff0c;作为一名数据科学家#xff0c;您应该始终站在一个角落跟你说#xff1a;“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽…简介 如果您还没有听过请告诉您一个事实作为一名数据科学家您应该始终站在一个角落跟你说“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽油导致汽车表现不佳而更换了一辆超级跑车。这种情况下应该做的是提炼汽油而不是升级的车。在这篇文章中。我将向您解释如何通过提高数据集质量的方法来轻松获取更好的结果。 注意我将以图像分类的任务为例但这些技巧可以应用于各种数据集。 问题1数据量不够。 如果你的数据集过小你的模型将没有足够多的样本概括找到其中的特征在此基础上拟合的数据会导致虽然训练结果没太出错但是测试错误会很高。 解决方案1收集更多数据。 您可以尝试找到更多的相同源做为您的原始数据集或者从另一个相似度很高的源再或者如果你绝对要来概括。 注意事项这通常不是一件容易的事需要投入时间和金钱。此外你可能想要做一个分析以确定你需要有多少额外的数据。将结果与不同的数据集大小进行比较并尝试进行推断。 在这种情况下似乎我们需要500k样本才能达到目标 误差。这意味着我们现在收集的数据量是目前的50倍。处理数据的其他方面或  模型可能更有效。 解决方案2通过创建具有轻微变化的同一图像的多个副本来增强数据。 这种技术可以创造奇迹并以极低的成本生成大量额外的图像。您可以尝试裁剪旋转平移或缩放图像。您可以添加 噪点模糊改变颜色或阻挡部分噪音。在所有情况下您需要确保数据仍然代表同一个类。 所有这些图像仍然代表“猫”类别 这可能非常强大因为堆叠这些效果会为您的数据集提供指数级的样本。请注意这通常不如收集更多 原始 数据。 组合数据增强技术。班级仍然是“猫”应该被认可。 注意事项所有增强技术可能无法用于您的问题。例如如果要归类柠檬和酸橙不与色相玩因为这将是有意义颜色是对分类重要。 这种类型的数据增加将使模型更难找到区别特征。 问题2低质量的分类 这很简单但如果可能的话花些时间浏览一下您的数据集并验证每个样本的标签。这可能需要一段时间但在数据集中使用反例会对 学习过程产生不利影响。 此外为您的类选择正确的粒度级别。根据问题您可能需要更多或更少的类。例如您可以使用全局分类器对小猫的图像进行分类以确定它是动物然后通过动物分类器运行它以确定它是小猫。一个巨大的模型可以做到这两点但它会更难。 具有专门分类器的两阶段预测。 问题3低质量的数据 如引言中所述低质量数据只会导致低质量的结果。 数据集中的数据集中的样本可能与您要使用的数据集相差太远。这些可能会更混乱的模式不是很有帮助。 解决方案删除最糟糕的图像。 这是一个漫长的过程但会改善您的结果。 当然这三个图像代表猫但模型可能无法使用它。 另一个常见问题是当您的数据集由与真实世界应用程序不 匹配的数据组成时。例如如果图像来自完全不同的来源。 解决方案考虑技术的长期应用以及将用于获取生产数据的方法。 如果可能尝试使用相同的工具查找/构建数据集。 使用不代表您的真实世界应用程序的数据通常是一个坏主意。您的模型可能会提取在现实世界中无法使用的功能。 问题4不平衡的分类 如果数每类样本的不是大致的相同的所有类模型可能有利于统治阶级的倾向因为它会导致一个较低的 错误。我们说该模型存在偏差因为类分布是偏态的。这是一个严重的问题也是您需要查看精度召回或混淆矩阵的原因。 解决方案1收集代表性不足的分类的更多样本。 然而这在时间和金钱上通常 是昂贵的或者根本不可行。 解决方案2对数据进行过度/不足的采样。 这意味着您从过度表示的类中删除一些样本或从代表不足的类中复制样本。比重复更好使用数据增加如前所述。 补充猫类图片减少青柠的图片可以让数据集不同的分类更平衡 问题5数据不平衡 如果您的数据没有特定 格式或者值不在特定 范围内则您的模型可能无法处理它。你将有形象有更好的结果横宽比和像素值。 解决方案1裁剪或拉伸数据使其具有与其他样本相同的方面或格式。 两种可能性来改善格两种可能性来改善格式错误的图像式错误的图像。 解决方案2规范化数据使每个样本的数据都在相同的值范围内。 将值范围标准化为在整个数据集中保持一致。 问题6没有验证集和测试集 清理扩充和正确标记数据集后需要将其拆分。许多人通过以下方式将其拆分80用于训练20用于测试这 使您可以轻松发现过度装配。但是如果您在同一测试集上尝试多个模型则会发生其他情况。通过选择具有最佳测试精度的模型您实际上过度拟合了测试集。发生这种情况是因为您手动选择的模型不是其内在模型 值但其性能上的特定数据集。 解决方案将数据集拆分为三个训练集、验证集、测试集。 该屏蔽你的测试被设置过度拟合由模型的选择。选择过程变为 在训练集上训练你的模型。在验证集上测试它们以确保没有过拟合。选择最有希望的模型。在测试集上测试它这将为您提供模型的真实准确性。 注意一旦您选择了生产模型请不要忘记在整个 数据集上进行训练数据越多越好 结论 我希望到现在你确信在考虑你的模型之前你必须注意你的数据集。您现在知道处理数据的最大错误如何避免陷阱以及如何构建杀手数据集的提示和技巧如有疑问请记住“获胜者是不是一个最好的模式这是一个最好的数据。”。 原文Stop Feeding Garbage To Your Model! — The 6 biggest mistakes with datasets and how to avoid them.
http://www.sadfv.cn/news/78098/

相关文章:

  • seo站ai时代模版价格
  • 运用django做网站互联网架构师
  • 厦门网站建站公司Wordpress做物联网
  • 商业网站开发入门选课德芙巧克力的软文500字
  • 创建自己的个人网站手机网站建设公司报价
  • 宝安网站建设公司968网站图片一般多大尺寸
  • 网站建设用net后缀如何网站建设的发展
  • 百度云做网站有优势吗seo网络营销工程师
  • 建设银行信用卡提额网站工程造价信息网官网登录
  • 企业网站的劣势百度视频排名优化
  • 网站流量分成众筹网站建设费用
  • 网站的文件夹结构做网站推广前途
  • 做蛋糕视频教学网站淄博网站制作网络定制
  • 网站做支付端口的费用西安搬家公司电话号码大全
  • 怎么搜索网站搜索量自己做网站可以盗图吗
  • 建设电子书阅读网站南阳教育论坛网站建设
  • 一个网站建设多少钱?海口在线分类信息
  • 天津营销型网站建设费用福建建设厅网站 资质
  • 单位门户网站建设存在问题广州 建 网站
  • 怎么制作一个最简单的网站河南怎么样做网站
  • 电子商务网站的建设过程附近临时工200元一天
  • 网站做二级登录页面容易吗车险网站模版
  • 网站开发 聊天窗口永康建设投标网站
  • weirdcore制作网站做外贸自己开公司网站
  • 丽水做网站企业古云网站建设
  • 怎样快速做网站如何用txt做网站时增加照片
  • 网站开发公司特点哪些平台可以做推广
  • 招标网站建设方案网站建设发布教程视频
  • 江苏同邦建设有限公司网站广告设计与制作工作内容
  • 百度开放云制作网站做网站运营需要注意哪些问题