当前位置: 首页 > news >正文

建设部网站一级开发资质wordpress文章摘要

建设部网站一级开发资质,wordpress文章摘要,app运营推广策划方案,手机版的网站开发原文来源#xff1a;WordPress作者#xff1a;Luke Oakden-Rayner「雷克世界」编译#xff1a;嗯~是阿童木呀、KABUDA、EVA医疗数据很难处理。在医学成像中#xff0c;数据存储#xff08;档案#xff09;是基于临床假设进行操作的。不幸的是#xff0c;这意味着当你想提… 原文来源WordPress作者Luke Oakden-Rayner「雷克世界」编译嗯~是阿童木呀、KABUDA、EVA医疗数据很难处理。在医学成像中数据存储档案是基于临床假设进行操作的。不幸的是这意味着当你想提取一个图像比如一个正面的胸部x光片时你通常会得到一个装满其他图像的文件夹并且没有简单的方法来区分它们。这些全部是相同的文件夹是合情合理的因为在放射学中我们报告的是病例而不是图像。这是病人在经历创伤后同时扫描的所有东西根据制造商的不同最终可能会得到水平或垂直翻转的图像。它们可能有反向的像素值inverted pixel values。它们可能会旋转。问题在于当处理一个庞大的数据集比如50-100k的图像时如何在没有医生查看所有这些畸变aberration的情况下发现这些畸变你可以尝试编写一些简练的解决方案比如在许多胸部x光片的两侧有黑色的边界因为大多数胸部都比宽度高所以如果底部有超过50个黑色像素行那么它可能旋转了90度。但是一如既往我们陷入了失效模式failure mode。这里只有中间的图像有经典的“两侧黑色边界”外观这些脆弱的规则无法为我们解决这些问题。进入软件2.0我们使用机器学习来构建解决方案以解决我们无法自己编码的问题。令人尴尬地是像旋转图像这样的问题是可学习的。这意味着像人类一样机器可以很容易地几乎完美地完成这些任务。因此使用深度学习来为我们修复数据集是显而易见的答案。本文将说明这些技术的工作原理如何以最少的努力完成工作并展示一些使用方法的示例。举个例子我将使用Wang等人的CXR14数据集该数据集看起来是精雕细琢的但仍然包含偶然的坏图像。如果你使用CXR14数据集我甚至会给你一套新的~430标签这样你就不用担心那些潜在的坏图像了非常令人尴尬我们真正需要问的第一个问题是——问题1这个问题是令人尴尬地可学习的吗考虑到大多数的研究都是常规的你需要非常高的精确度来防止排除太多“好的”研究。我们应该把目标定在99.9%。很酷的一点是这些我们可以很好地执行的简单问题在视觉上是可以识别的。所以一个很好的问题是“你能想象一个单一的视觉规则来解决这个问题吗”在区分狗和猫时当然不是这种情况这是ImageNet数据集的主要目的。 有太多的变化和太多的相似点。我经常在演讲中使用这个例子——我甚至无法想象如何编写一般意义上在视觉上区分这两种动物的规则。这并不是令人尴尬地可学习的。但在医疗数据中许多问题其实很简单。变化很小。解剖学、角度、照明、距离和背景都很稳定。为了说明这一点让我们看一个来自CXR14的简单示例。在数据集中的普通胸部x光片中有一些是旋转的这在标签中未被识别所以我们不知道是哪些。它们可以左右旋转90度左右或180度上下颠倒。这是令人尴尬地可学习的吗?旋转和垂直的胸部x光片之间的区别真的简单得令人尴尬答案是肯定的。在视觉上非常规研究与常规研究完全不同。你可以使用一个简单的视觉规则比如“肩膀应该高于心脏”你就会得到所有的例子。鉴于解剖学是非常稳定的而且所有人都有肩膀和心脏这应该是一个可学习的卷积网络规则。非常渴望我们需要问的第二个问题是——问题2我们拥有足够的训练数据吗在旋转图像的情况下我们当然会拥有我们做得到我们所需要的只是几千个常规的胸部x光片然后对它们进行随机旋转。例如如果你在图像中使用numpy数组numpy array你可能会使用这样的函数 这只是将图像按照顺时针方向旋转90、180度或270度。在这种情况下绕着第二个和第三个轴axis旋转因为第一个轴是信道的数量鉴于theano dim排序规则。请注意在这种情况下CXR14数据集中几乎没有旋转的图像所以意外“纠正”已经旋转图像的几率非常小。我们可以假设数据中没有数据并且模型将会学习得很好。如果有更多非常规的图像那么你最好手动选择常规和非常规图像。因为像旋转这样的问题很容易被识别我发现我可以在一个小时内进行几千个标记所以这并不需要太多的精力。由于这些问题很简单我经常发现我只需要几百个样本即可“解决”这个挑战。所以我们建立了一个常规图像的数据集对其中的一半进行旋转并相应地标记它们。在我的例子中我选择了4000个训练案例其中2000个是经过旋转的和2000个验证集validation set案例其中有1000个是经过旋转的。这似乎是一个很好的数据量请记住经验法则the rule of thumb1000个样本可能是好的加上误差范围margin of error而且它适合于RAM所以很容易在我的家用计算机上进行训练。为了在机器学习中进行有趣的改变我不需要一个单独的测试集。证据需要实践来检验in the pudding——无论如何我都将在整个数据集上运行这个模型并将输出作为我的测试进行检查。一般来说对于这类研究我会让自己的生活变得轻松。我将图像缩小因为旋转检测看起来不需要高分辨率到256 x 256像素并且使用一个经过预先训练的以keras作为基础网络的resnet50。使用经过预先训练的网络并没有真正的理由因为几乎所有你使用的网络都会在一个简单的解决方案上聚合但是它很简单并且不会减慢任何速度无论如何训练时间都是快速的。我使用了一组默认的参数并且不为这个如此简单的任务进行任何调优。你可以使用手边的经过编码的任何网络VGG-net可行 Densenet可行任何网络都可行真的。在几十个轮数之后我得到了我的结果这是在val集上的AUC 0.999, ACC 0.996, PREC 0.998, REC 0.994很好如果这是一项令人尴尬地可学习的任务我希望能找到的就是这个。检查结果正如我之前所说的在医学图像分析中我们总是需要检查我们的结果。查看图像确保模型或过程做到了你想要它做的事情。所以最后一步是在整个数据集上运行模型、进行预测、然后排除旋转研究the rotated studies。由于数据中几乎没有旋转研究所以我可以简单地查看被预测为旋转的所有图像。如果相反的话这就是一个有很多异常图像的问题比如超过5的数据那么收集几百个随机案例和手工标记一个测试集将会更为高效。然后你可以通过适当的指标追踪模型的精确度。我特别关心的是任意一个被称之为旋转假阳性的正常研究因为我不想失去宝贵的训练案例。这实际上是一个比你所能够想象的更大的问题因为这个模型可能会过度调用某种特定类型的病例也许是那些让病人变得懒散和倾斜的病例如果我们排除这些作为规则那我们将会引入偏差进入我们的数据中且不再有“真实世界”的代表性数据集。这显然与医疗数据有很大关系因为整个目标就是生产出能够在真正的诊所中运行的系统。该模型总共将171个案例识别为“旋转”。有趣的是它实际上作为一个“异常”检测器识别出许多实际上并没有旋转的坏案例。这是有道理的因为它可能是学习解剖学的标志。任何异常的东西如旋转的胶片或其他身体部位的X射线都不具有相同的标志。所以我们实际上能够收获更多的东西而不仅仅是寻找异常旋转的图像。在171个预测中51个是旋转了的正面胸部X射线。鉴于低的离谱的患病率120,000中有51个这已经是一个极低的假阳性率了。旋转的胸部胶片样本在余下的120个案例中56个不是正面胸部胶片。主要是侧面影片和腹部X光片的混合。无论如何我还是想把这些摆脱掉。其余的呢有一些混合的缩小性研究黑色或白色的大边界、淘汰性研究整个研究灰色、反向像素水平研究等等。 总的来说大约有10项研究我将称其为明确的假阳性意味着它们是我可能想要保存的良好的正面X射线。值得庆幸的是即使你想将它们重新添加进去由于只有171个预测值所以手动对其进行操作也是非常容易的。所以旋转检测器看起来像是部分解决了一些其他问题如像素值反转。要知道它做的有多好我们需要检查它是否漏掉了其他不好的案例。我们可以测试这一点因为像素值反转pixel value inversions很容易为图像中的xx max-x生成数据。所以我使用与旋转检测器相同的方法训练了一个快速的“反向检测器”并取得了很好的结果。AUC 1.0ACC 0.9995PREC 0.999REC 1.0在这种情况下可能有一些方法可以在没有机器学习的情况下做到这一点直方图应该看起来很不一样但是这也很简单。那么这个特定的检测器是否比旋转探测器发现了更多的反向结果呢是的。旋转检测器在整个数据集中发现4个而反向检测器发现38个反向研究。所以旋转检测器发现了一些不好的研究结果但不是全部。观点重申培养单一模型来解决每个问题是正确的方法。所以我们需要特定的模型来完成附加的清洁任务。每一点帮助为了显示少量的标记数据是有用的我拍摄了使用旋转检测器n 56所发现的横向和不良区域的胶片并在它们上面训练了一个新模型。由于我没有很多这样的胶片所以试图做得更为详尽甚至没有使用验证集。由于这些任务是可学习的一旦它接近100它应该就会具有很好的泛化能力。显然这里有过度训练的风险但我认为是值得冒险的。它效果很好我发现了额外的几百张侧面胶片、腹部胶片和几个骨盆。显然如果我从头开始构建这个数据集解决这个问题会更加容易因为我可以访问很多相关的非正面胸部图像。对于我来说想要比现在做得更好我需要从当地的医院档案中提取来自各个身体区域的一组图像这超出了本博客的范围。所以我不能确定我是否掌握了大部分这些内容但从这样一个小数据集中获得了相当好的效果。除了关于CXR14的数据外我注意到我的模型总是会对关于幼儿的胶片显现崩溃的状态。这些儿科胶片在外观上与成人胶片有很大不同且它们被旋转检测器、反向检测器和不良身体部位检测器识别为“异常”。我建议它们应该被忽视但是因为患者年龄被包含在标签集中所以可以在没有深度学习的情况下完成。考虑到数据集中只有286名5岁以下的患者除非我特别想要研究这个年龄段的患者并且真正知道我在做什么所以从医学成像的角度来看我会排除所有这些患者。实际上我可能会把所有10岁以下的人排除在外因为这是一个合理的年龄可以将体型和病理特征更加“成人化”。有兴趣的是10岁以下的人约有1400人因此约有1的数据。观点重申幼儿胸部X光与成人非常不同。考虑到数据集中低于10岁的数据只有大约1除非有很好的理由否则应该将其排除在外。根据你的任务放置不良和放大的胶片可能是一个问题但是武断地定义一个“坏胶片”对于所有任务来说都是不可能的这不是我想做的。还有一件事是特定于任务的。就是这样。总的来说使用深度学习来解决简单的数据清理问题效果很好。经过大约一个小时的工作我清理了数据集中大部分旋转和反向的图像这里需要注意一个名为csv的文件。我我可能已经确定了相当一部分的侧面胶片和其他身体部位的胶片但确定我需要为它们构建特定的检测器。从更广泛得角度来查看CXR14数据没有太多的图像误差。美国国立卫生研究院团队NIH team可能相当好地管理了他们的数据。在医疗数据集中情况并非总是如此如果要构建高性能医疗AI系统制定有效的方法来处理来自将临床基础设施用于研究任务的噪声是非常重要的。更进一步截至目前我们已经解决了一些非常简单的挑战但这并不意味着我们在医学成像方面遇到的问题都如此简单。我们的团队在构建一个大型髋骨骨折数据集时应用到了这些技术。特别是我们排除了其他身体区域的图像也排除了植入金属如髋关节置换的病例并且我们放大了髋关节区域同时舍弃了与我们的问题无关的图像区域髋部骨折不会发生在臀部以外。排除金属是通过自动文本挖掘过程实现的。因为这些假体在出现时几乎总是被报道因此我们找到了与植入相关的关键词。这些标记仅花费了10分钟左右的时间就被创建了出来。在躯体部分检测body part detection和边界框预测bounding box prediction错误的情况下无法自动生成标记。所以我自己做了。即使是像边界框预测那样复杂的事物这实际上是解剖学中里程碑式的识别任务我们也仅需要约750个案例。每个数据集仅需要1小时左右的时间即可完成。在这种情况下我们使用手工创建的测试集来量化结果。相比于实际标记骨折需要几个月的时间额外标记一小时或两小时以获得清晰的数据集是非常小的代价。特别是因为该系统目前可以接收任何临床图像并且据我们所知它可以自动排除无关或低质量胶片。这正是AI系统需要在“自然环境”中进行操作的方式除非你想要付费给某人让其手工整理它分析的所有图像。结论我们都认同一个观点那就是在数据充足的前提下深度神经网络在解决视觉问题方面的能力与人类水平相差无几。同样显而易见却少有人提及的一点是“数据充足”在很大程度上依赖于任务的难易程度。对于医学图像分析问题的一个子集这也是我们在构建医学数据集时经常要解决的问题而言其任务是非常简单的这使得问题很容易用少量的数据来解决。一般而言仅用不到一个小时的时间即可完成对图像组的识别但同样的任务医生需要花费数小时的时间进行手工处理才可完成。为了证明这一方法同时感谢你的阅读我提供了一组约含有430张标记为不良的图像以将其从CXR14数据集中排除同时建议你排除约1400名10岁以下的儿童除非你明确知道为什么要保留他们。这不会改变任何论文的任何结果但对于这些数据集而言图像越清晰越好。我在本文中所探讨的内容没有涵盖任何开创性技术这也是我为什么不写一篇正式论文的原因。但对于我们这些正在构建新数据集的人特别是那些没有大量深度学习经验的医生而言我希望本文能引发他们关于软件2.0是如何凭借比人工方法更低的成本解决数据问题的些许思考。注释解释我的示例审查/标记过程我在Windows文件浏览器中查阅所有图像。我在本文末的实际工作空间用于旋转检测器的预测我只需将我想要查看的案例转移到一个新的文件夹然后打开该文件夹以“特大号图标”作为试图模式。这种尺寸的图像大约是你屏幕高度的四分之一而且在大多数现实屏幕上都足够大可以检测到诸如旋转这样的明显异常。当我标记具有明显异常的图像时我只需按住Ctrl键并单击文件夹中的所有样本然后将它们剪切/粘贴到新文件夹中。这样我每小时能筛选出1000张图像。尽管这一系统非常简陋但它比我从网上回购或自己编码中尝试的大多数事物要好很多。用于移动文件的python代码非常简单但是在构建数据时它是我最常使用的代码之一所以我认为我应该收录它然后我可以去那个文件夹浏览一下。如果我做了一些人为处理并且想要重新读取图像那么这非常简单原文链接https://lukeoakdenrayner.wordpress.com/2018/04/30/the-unreasonable-usefulness-of-deep-learning-in-medical-image-datasets/amp/?__twitter_impressiontrue未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.sadfv.cn/news/334124/

相关文章:

  • 柴油发电机组网站建设价格天津电子商务网站
  • 移动端网站seowordpress静态设置方法
  • 什么是网站名称汽车配件网上商城
  • 白山市网站建设鹤壁市城乡一体化示范区官网入口
  • 做旅游网站用什么颜色h5页面版式设计有哪些方法
  • 枣庄建设网站网站界面设计中的布局设计要注意什么的结合
  • 微网站开发 付费阅读python做网站好用吗
  • 哈尔滨门户网站制作哪家好企业注册信息
  • 如何做简单网站首页wordpress分享到快手
  • 祥云平台英文网站注册会计师协会
  • 网站的登录注册页面怎么做的制作自己的网站 域名怎么弄
  • 成都金牛区建设局网站男女做啊免费视频网站
  • dw做网站实例怎么区分网站的好坏
  • 开发系统网站建设做电影网站侵权
  • 中山网站推广词浪漫表白网页一键生成
  • 东莞网站搜索排名the ken wordpress
  • 网页设计与制作黑马程序员云南网络营销文化优化
  • 访问量大的网站带宽什么网站上做指甲最便宜
  • 厦门网站公司wordpress搜狗收录
  • 用net语言做网站平台好不好网关高性能 网站建设
  • 永川集团网站建设怎样搭建个人网站
  • 做邮轮的网站哪些网站可以做海报热点的
  • 建设银行行号网站查询是什么意思关键词采集软件
  • 游戏网站域名杭州购物网站建设
  • 备案网站内容格式填写如何做网站改版
  • 如何做印刷报价网站大学生家教网站开发
  • 网站没有备案做竞价吗岳塘区建设路街道网站
  • 网站建设开发价格成都网站建设方案托管
  • 怎么制造网站河北seo推广平台
  • 如何建立一个网站的快捷方式万网衡水网站备案