一起做网店网站特点,济南网站建设开发公司哪家好,吃什么补肾阳虚,扁平化配色方案网站本文是LLM系列文章#xff0c;针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。 GPT-3对基于小样本知识的VQA的实证研究 摘要引言相关工作方法OK-VQA上的实验VQAv2上的实验结论 摘要
基于知识的视觉问答#xff08;VQA#xff09;涉及回答需…本文是LLM系列文章针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。 GPT-3对基于小样本知识的VQA的实证研究 摘要引言相关工作方法OK-VQA上的实验VQAv2上的实验结论 摘要
基于知识的视觉问答VQA涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识然后对所选知识、输入图像和问答预测进行推理。然而这种两步走的方法可能会导致失配从而潜在地限制VQA性能。例如检索到的知识可能是嘈杂的与问题无关并且在推理过程中重新嵌入的知识特征可能偏离其在知识库KB中的原始含义。为了应对这一挑战我们提出了PICa这是一种简单而有效的方法通过使用图像字幕来提示GPT3用于基于知识的VQA。受GPT-3在知识检索和问答方面的能力的启发我们不再像以前的工作那样使用结构化知识库而是将GPT-3视为一种隐式和非结构化知识库来联合获取和处理相关知识。具体来说我们首先将图像转换为GPT-3能够理解的字幕或标签然后通过提供几个上下文中的VQA示例调整GPT-3以以多样本的方式解决VQA任务。我们通过仔细研究来进一步提高性能i什么样的文本格式最能描述图像内容以及ii如何更好地选择和使用上下文中的示例。PICa解锁了GPT-3在多模式任务中的首次使用。通过仅使用16个示例PICa在OK-VQA数据集上以绝对值8.6分的优势超过了监督的现有技术。我们还在VQAv2上对PICa进行了基准测试其中PICa也表现出了不错的小样本性能。
引言
相关工作
方法
OK-VQA上的实验
VQAv2上的实验
结论
我们提出了PICa这是一种使用GPT-3进行基于小样本的VQA的方法。PICa没有使用明确的结构化知识库来检索和推理外部知识而是通过提示GPT-3来联合获取和处理相关知识。它继承了GPT-3强大的小样本能力并以显著的优势超过了OK-VQA上的监督技术。分析表明我们的方法隐含地获取了相关知识来回答问题。