无锡新吴区住房建设和交通局网站,wordpress 运行速度慢,自己做网站需要,杭州网络科技公司排名本文是LLM系列文章#xff0c;针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。 检索增强的多模态语言建模 摘要1 引言2 相关工作3 方法4 实验5 定性结果6 结论 摘要
最近的多模态模型#xff0c;如DALL-E和CM3#xff0c;在文本到图像和图像到文本生成…本文是LLM系列文章针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。 检索增强的多模态语言建模 摘要1 引言2 相关工作3 方法4 实验5 定性结果6 结论 摘要
最近的多模态模型如DALL-E和CM3在文本到图像和图像到文本生成方面取得了显著进展。然而这些模型将其所有知识例如埃菲尔铁塔的外观存储在模型参数中需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识我们提出了一种检索增强的多模态模型该模型使基础多模态模型生成器能够引用检索器从外部存储器例如网络上的文档中提取的相关文本和图像。具体来说对于检索器我们使用预训练的CLIP对于生成器我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3RA-CM3是第一个可以检索和生成文本和图像的多模态模型。我们发现RA-CM3在图像和字幕生成任务上显著优于基线多模态模型如DALL-E和CM3MS-COCO的12个FID和17个CIDEr改进同时训练所需的计算量要少得多DALLE的30%。此外我们发现RA-CM3表现出了新的能力如忠实的图像生成和多模态上下文学习例如从演示中生成图像
1 引言
2 相关工作
3 方法
4 实验
5 定性结果
6 结论
我们提出了一种检索增强的多模态模型该模型可以检索和引用用于生成图像和文本的外部存储器。具体来说我们使用预训练的CLIP实现了一个多模态检索器并使用CM3架构设计了一个检索增强生成器。我们得到的模型名为RA-CM3在图像和字幕生成任务上都优于现有的多模态模型同时需要更少的训练计算。此外RA-CM3表现出新的能力如知识密集型图像生成和多模态上下文学习。 这项工作旨在为多模态模型提供一个通用的模块化检索增强框架。我们相信这开辟了各种令人兴奋的研究途径例如改进多模态检索器和生成器将模态扩展到图像和文本之外以及进一步研究多模态提示和上下文学习。