做网站优化需要做什么,wordpress 媒体库代码,商务网站开发与建设论文,郴州网红打卡餐厅声明#xff1a;本文原创首发于公众号夕小瑶的卖萌屋#xff0c;作者Severus---【我是传送门】今年清明节#xff0c;Google 搞了一点小动作#xff0c;在 arxiv 上放出了自己的新工作#xff0c;PaLM[1] #xff08;PaLM: Scaling Language Modeling with Pathways本文原创首发于公众号夕小瑶的卖萌屋作者Severus---【我是传送门】今年清明节Google 搞了一点小动作在 arxiv 上放出了自己的新工作PaLM[1] PaLM: Scaling Language Modeling with Pathways。这是自去年Jeff Dean 谈论下一代 AI提出 Pathways[2] 架构之后其第一次秀出了自己的成绩。既然秀肌肉的一件工作我们不必怀疑其在各大不同的基准任务上能展现出什么样的非凡能力。论文发出之后各家大V迅速跟进各种解读铺天盖地关于它是什么样子的它的实现细节它展现了什么样的效果已不必赘述。今天我想要谈一谈Pathways 及其背后的思想可能会开启什么新的纪元为什么 Jeff Dean 认为它是下一代的 AI 架构缘起Swtich Transformer事情还是要回到去年1月份。彼时以 GPT-3 为首预训练语言模型界刮起了大模型之风。当然这股风浪到现在也没有过去千亿级别的大模型仍然是你方唱罢我登场。而在那个时候Google 一篇 Switch Transformers[3] 引起了我的注意。说来惭愧当时我注意到这篇工作还是因为某公众号提出了“万亿”这一关键词。而彼时由于大模型的风刮了太久对这种工作我充满了不屑且 Google 是出了名的“大力出奇迹”我也仅仅是将其当成了卷出新高度的工作打开看了一眼。我承认我被打脸了Switch Transformers 想要秀出来的不只是 Google 的厨力有多强更在于他们翻出了一个古老而优美的架构——Geoffrey Hinton 于1991年提出的混合专家模型[4]Mixture Of Experts下称 MoE。MoE与我们通常所理解的 DNN模型的很大区别是其内部不是由一个统一的模型组成而是由若干个小模型组成一次计算会使用哪些小模型由一个稀疏门控系统决定[5]。当时我注意到的是把大模型变成若干个小模型技术上的意义则是计算量会降低运算效率会变快自然模型的总参数量也就可以变得更大。需要说明的是在这个时候我对 MoE 前景的理解是极其浅薄的那个时候的我根本没有看到其后面的巨大价值。而到了去年10月底也就是 Pathways 发布临近马后炮地说我在和同事畅想未来的时候也提出了类似的设想并将之放在了我11月的技术分享中作为“未来篇”的结尾。现在想来这是一个美好的巧合从当前 AI 技术的发展步调来看却也是一个历史的必然。以我老 CS 人的嗅觉我发现MoE 的潜在价值在于其工程思想这一架构给多任务乃至多模态提供了一个新的、且我认为更加靠谱的方向。无限统合首先既然 MoE 的各个专家由稀疏门控制则专家之间相互可看作是独立的。那么我们就可以做一个非常朴素的猜测不同的任务可以由门控系统分配给不同的专家来处理这样任务之间就不会有太大的影响。这一点个人认为是比较重要的因为不同的任务大概率会有相互之间冲突的地方虽然大模型可以依靠大规模参数所带来的记忆能力缓解这一问题。通常多任务学习的前提假设是多个任务之间是可以互相增益的其潜在逻辑在于多个任务所应用到的知识存在共通的地方。实际上预训练模型或预训练特征word2vec等就是找到一种看上去所有任务都会用到的自监督特征使用大量的语料训练出来保证覆盖使之在迁移学习上成立。而独立则可以真正地让一个系统处理多个任务。而如我上面所提那不是就意味着多个任务之间共通的那部分特征也就独立造成不必要的冗余了呢实际上哪怕只有一个任务输入到 MoE 系统中也不可能只激活一个专家单个任务也有可能同时激活多个专家 那么我们是否可以认为激活的这多个专家实际上已经把这个任务给拆解开了呢理想状况下被激活的各个专家各司其职分别抽取一部分特征再通过某种方式结合起来决定了模型的输出。那么多任务场景之下理想状况下就可以认为任务之间共通的知识由相同的专家学到而任务之间差异的知识则由不同的专家捕捉二者有机结合形成了一个统合的多任务系统。说到这我们就可以把脑洞开的更大一些了多任务可以解决多模态能否解决呢我认为Pathways 所代表的思想是一种更加有力的多模态解决方案。多模态与 Pathways当前多模态最大的困境是什么呢实际上是数据空间无法对齐。以文本与图片为例请小伙伴们同我思考当我说出“一匹马”的时候你的脑海中会想象出多少张图片而当我让你描述这样一张图片的时候你的脑海中又能蹦出多少种描述方式我想这两个问题的答案都是无限对吧这也就意味着通用意义上或当任务空间足够大的时候图片和文本数据是不可能对齐的。数据无法对齐训练过程中多模的知识自然也会趋向过拟合式的绑定这也就意味着单个 dense 网络结构的多模态模型仅仅可以处理足够窄场景的多模任务如某音的短视频搜索。而到了 MoE 中如我前面所说不需要做数据对齐同时也没有直接去硬性组合最终的输出而是在中间层的抽象特征上做了映射和组合。这样一种结构不敢说通用至少处理更大场景、更多元的多模任务时看上去更加合理一些。那么我们可以大胆设想预训练-微调可以是这个样子的训练一个包罗万象的大模型由这个大模型则可以导出各种处理专用任务的小模型这可能才是有钱有算力的机构的使命所在。由于大模型是保罗万象的内部是由多个独立专家组成的我们不必再担心 fine-tuning 会破坏模型原本学到的知识预训练阶段学到的知识也能够得到更好的利用。最后一部分我想要从另一个角度谈一下为什么我相信 Pathways。从认知科学的角度人工智能研究的目标之一是真正做出一个强智能而由于目前我们能够参考的唯一一个真正的强智能只有我们自己所以接下来我将以我对人脑粗浅的认识为类比继续聊一聊 Pathways。我们继续以多模态为例。首先人处理信息的时候一定是多模态的这个已经是一个常识了。所以多模态也一定是 AI 的趋势。但是单个 dense 模型的多模态研究前文已提到需要的是数据的对齐而用认知的话来讲则是用一个感知系统去处理多种感知信号需要说明的是这里所说的感知系统与器官不是等同概念。是的人是多模的但是人不是这么处理感知信号的对于不同形式的感知信号人是有不同的感知系统对应处理的而同时又有认知系统进一步处理感知信号形成我们对世界的认知。人脑是有多个感知系统的而感知系统之间又是相对独立的不同的感知系统有可能分布在不同的脑区。同时去年我关注到毕彦超老师关于知识的双重编码理论的工作[6]他们的实验结论表明先天盲人也是能够通过认知系统学习到“红色”这一概念的也就说明了即使对于颜色的感知系统缺失了人依旧能够学会颜色概念。同时通过核磁共振成像也可以观察到在提到颜色概念时先天盲人被激活的脑区和视觉正常的人被激活的脑区是不一样的。也就说明感知系统和认知系统也分布在不同的脑区且相互独立。这种结构保证了很好的容错能力。即人的某一个感知系统出现问题了一般不会影响到其他的感知系统双目失明的人同样可以听到声音尝到味道而某一感知系统缺失也可以不影响人的认知。那么我们将这些对应到我上文所讲到Pathways 的前景上是不是可以说相比于单纯的堆砌神经元数量它和目前认知科学所理解到的大脑的运行机制非常像呢不同的感知系统对应不同的专家网络而从感知到认知则在系统中作为抽象特征组合也由更高层次的专家网络处理部分通用的知识也由认知系统存储了下来且不同的模态或不同的特征可以缺省增强了整体的容错能力。从这个角度来看的确下一代的智能可能就应该是这个样子的。我不敢妄言具象的 Pathways 一定就是未来从最抽象的意义上讲它提出了一条可行的路径或许可以通往智能。当然做这个东西的大前提是有钱……声明本文原创首发于公众号夕小瑶的卖萌屋作者Severus---【我是传送门】内含海量CV/NLP/ML入门资料、必刷综述、前沿论文解读、交流社群、offer神器、学习神器等