网站按城市做分站,浙江网站建设哪家权威,深圳蚂蚁网络,网站底部素材今天在找论文时#xff0c;看到一篇比较新奇的论文#xff0c;在这里跟大家分享一下#xff0c;希望可以给一些人提供一些思路。虽然现在Transformer 比较火#xff0c;在分割上面也应用的比较多#xff0c;但是我一直不喜欢用#xff0c;其中一个原因是结构太复杂了看到一篇比较新奇的论文在这里跟大家分享一下希望可以给一些人提供一些思路。虽然现在Transformer 比较火在分割上面也应用的比较多但是我一直不喜欢用其中一个原因是结构太复杂了平时我主要用一个sel-attention 感觉都有点复杂了如果用多头会更复杂。虽然网上有很多人提供了各种解决方法但是都没有从根本上解决。直到我看到这篇文章。与自然语言不同视觉图片中的特征数量更多由于自注意力是平方复杂度直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如设计稀疏注意力机制如PVT或将注意力的计算限制在局部窗口中如Swin Transformer。尽管有效这样的自注意力方法很容易受到计算模式的影响同时也不可避免地牺牲了自注意力的全局建模能力。
与这些方法不同线性注意力将Softmax解耦为两个独立的函数从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)使得总体的计算复杂度降低为线性。然而目前的线性注意力方法要么性能明显不如Softmax注意力要么引入了过多的额外计算量导致模型推理速度很慢难以实际应用。 当然如果直接使用这个版本网络准确性并没有想象的那么高。后面作者提出个一些解决方法如果大家想了解这些细节可以直接看论文。
这篇文章给我最大的感受是原来不一定要按照传统的样式进行也可以换一种方法。不能总是一成不变。