济宁企业网站建设公司,无锡百度网站推广,石家庄网页,网站建设实践试卷夕小瑶科技说 原创 作者 | 王思若
LLaMA、GPT-3等大型语言模型实现了对自然语言强大的理解和推理能力#xff0c;为AI社区构筑了强大的语言基座模型。进而#xff0c;继续迭代的GPT-4#xff0c;更是赋予了模型处理图像的视觉能力。
如今#xff0c;构建强大的多模态模型… 夕小瑶科技说 原创 作者 | 王思若
LLaMA、GPT-3等大型语言模型实现了对自然语言强大的理解和推理能力为AI社区构筑了强大的语言基座模型。进而继续迭代的GPT-4更是赋予了模型处理图像的视觉能力。
如今构建强大的多模态模型已经成为了社区的共识BLIP2、LLaVA、MiniGPT-4、mPLUG-Owl、InstructBLIP等大量的视觉语言模型Vision-Language ModelsLVLMs犹如井喷式被相继提出。
现有视觉语言模型是否真正对齐了图像和文本模态呢究竟哪种视觉语言模型能力更优秀呢
现有视觉语言模型孰强孰弱无疑是研究者关注的焦点上海人工智能实验室构建了评估基准LVLM-eHub对包括InstructBLIP和MiniGPT-4等八种视觉文本模型进行了综合性评估。
研究发现现有的如InstructBLIP等指令微调视觉语言模型严重过拟合于现有任务在真实场景中的泛化能力表现很差。此外模型极容易出现对象幻觉问题生成图像中并未出现的物体描述。 大模型研究测试传送门
GPT-4传送门免墙可直接测试遇浏览器警告点高级/继续访问即可Hello, GPT4!
论文题目 LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models
论文地址 https://arxiv.org/pdf/2306.09265.pdf
一、构建六类多模态定量性能评估数据集并搭建模型互动评测平台
LVLM-eHub由定量能力评估和在线互动评测平台组成具体来说一方面定量能力评估在47个标准视觉语言基准数据集上广泛评估LVLM在视觉感知、视觉知识获取、视觉推理、视觉常识、对象幻觉和具身智能6类多模态能力。
另一方面搭建在线互动评测平台以众包的方式对视觉语言模型进行匿名随机成对对战在开放世界的问答场景中提供用户层面的模型排名。 视觉感知 视觉感知是识别图像中的场景或物体的能力是人类视觉系统的初级能力。包括图像分类任务多类识别和物体计数任务。
视觉知识获取 视觉知识获取需要超越感知来理解图像并获取知识。包括光学字符识别、关键信息抽取和图像描述任务。
视觉推理 视觉推理需要全面理解图像及相关文本。为评估LVLM的视觉推理能力包括三个任务包括视觉问答(VQA)、视觉蕴含和基于知识的图像描述任务。
视觉常识 这项评估通过使用ImageNetVC和视觉常识推理(VCR)来测试模型对通用共享人类知识的理解。具体来说ImageNetVC用于零样本视觉常识评估如颜色和形状而VCR涵盖各种场景如空间、因果和心理常识。
对象幻觉 视觉语言模型存在对象幻觉问题即生成的描述对象与目标图像不一致本文在MSCOCO数据集上评估视觉语言模型的对象幻觉问题。
具身智能 具身智能旨在创建人形机器人并让他们学习解决需要环境交互的复杂任务本文利用EmbodiedGPT中的高级任务作为基准。
本文调查视觉语言模型在各类新任务上的零样本能力来评估上述六类能力具体而言本文将零样本评估视为不同任务形式的提示工程 问答设计适当的视觉问题提示来确保视觉语言模型生成有意义的结果例如“what is written in the image” 来作为OCR任务的文本提示。 基于前缀的分数对于多选选择任务对给定图像一定的视觉提示让模型生成图像和文本的似然度把生成最大似然度结果的视觉提示作为答案。 多轮推理利用诸如ChatGPT之类的LLM为给定问题生成子问题视觉语言模型提供相应的子答案另一个LLM评估子答案的质量。通过这样的流程迭代进行直到获得满意的答案或达到预定义的最大迭代次数。 用户投票让人类评估视觉语言模型在特定上下文中生成文本的质量、相关性和有用性。为了保持评估的公平性本文会在评估过程中随机打乱模型输出顺序并对输出进行匿名化。
更有意思的研究还搭建了视觉语言模型互动评测平台让模型按照锦标赛的形式进行配对用户可以使用图像和文本输入分别和配对的模型就任何话题进行聊天模型真实世界的条件。在聊天阶段之后用户为模型进行投票让用户作为裁判这可以带来比传统评估指标更有说服力的评估结果。
让多模态模型来一场‘宝可梦世界锦标赛’就是你了皮卡丘LLaVA模型~ 二、现有视觉语言模型的测评结果
文章对8个代表性模型进行了测评包括BLIP2LLaVALLaMA-Adapter V2MiniGPT-4mPLUG-OwlOtterInstructBLIP和VPGTrans。
各大模型在六大类任务上都取得了相对不错的零样本能力尤其是InstructBLIP更是近乎在所有任务取得了远超其他模型的性能表现。 InstructBLIP在各种任务上都取得了远超其他模型的性能表现 但作者悲观的指出这种优越的性能表现究其原因是模型过拟合的表现。
一方面InstructBLIP在160万VQA数据集上进行了指令微调远超过其他视觉语言模型因此在现存的in-domain任务中定量评估中表现及其良好另一方面在接近真实场景的在线互动评测中反而InstructBLIP要比其他模型差很多反而mPLUG-Owl和MiniGPT-4性能表现最好。 8大视觉语言模型的指令微调数据集 InstructBLIP在接近真实场景的在线互动评测中表现很差反而其他的例如mPLUG-Owl, MiniGPT-4, Otter等模型性能表现不错。 好消息更大规模的指令微调数据集可以提升模型在in-domain任务上的性能表现但坏消息模型对这些数据验证过拟合了因此如何构建强大以及更广泛通用性的视觉语言模型依然有很长的路去走