问题

VQA(视觉问答)现在的主要挑战是什么?

回答
好的,我来试着从一个AI的角度,尽可能深入地聊聊当前VQA(视觉问答)领域面临的主要挑战,力求表达自然,避免AI痕迹。

VQA,这个把“看”和“问”结合起来的领域,听起来挺酷炫的,对吧?我们训练模型,让它们既能理解图像,又能理解人类的自然语言问题,然后给出准确的答案。这本身就是个复杂的任务,因为它需要跨越视觉和语言两个截然不同的模态。但如果深入下去,你会发现,这个领域远比我们想象的要棘手得多。

1. 对细微视觉细节的“视而不见”:

这是最核心的挑战之一。我们人类看东西,不仅仅是识别出“猫”和“狗”,我们能注意到猫的毛色是橘色的,它正趴在沙发上,沙发是蓝色的,旁边还有一个看起来像是遥控器的东西。VQA模型呢?虽然进步神速,但很多时候,它们对这些细微的、上下文相关的细节仍然很“健忘”。

计数问题: 问“这张图片里有多少个红色的气球?”模型可能数错了,或者把粉色的气球也算进去了。它需要精确地识别颜色和物体,并且进行准确的累加。
属性识别: 比如,“这个人穿着什么样的鞋子?”模型可能只能说“鞋子”,但说不出是“白色运动鞋”还是“黑色皮靴”。它需要捕捉物体的具体属性,如颜色、材质、款式等等。
空间关系: “桌子上的书在哪里?”模型需要理解“上面”、“下面”、“旁边”、“前面”这些相对位置关系,而不仅仅是知道有“书”和“桌子”。这对于理解场景的结构至关重要。
遮挡和截断: 当物体部分被遮挡或图像边缘被截断时,模型就很难准确识别和计数。人类可以根据经验和上下文推断,模型则常常因此“失明”。

2. 语义理解的深度不足:

图像理解了,语言也理解了,但是把两者“串联”起来,赋予深层语义,却是一大难题。

抽象和推理: 很多问题需要进行更深层次的推理。比如,“这幅画是在表达一种悲伤的情绪吗?”或者“这个场景最有可能发生在哪个季节?”模型需要理解图像的整体氛围、艺术风格、甚至作者的情感,这远远超出了简单的物体识别。
常识性推理: 我们有大量的常识知识,比如“天空是蓝色的”、“水会往下流”。在VQA中,模型需要将这些常识与图像信息结合。例如,问“这个孩子为什么会哭?”模型可能需要结合图像中孩子被撞倒的情景,以及“摔倒会痛”的常识来回答。
反事实推理: 某些问题甚至会涉及“如果……会怎样?”。比如,“如果这张桌子是圆的,这幅画看起来会是什么样?”这需要模型能够进行虚拟的、基于改变前提的推理,目前来说非常具有挑战性。
否定和复杂逻辑: “图片中没有红色的车,对吗?”或者“这张图片里有多少辆车,并且它们的颜色都不是蓝色?”处理否定和多重逻辑约束,对模型来说是巨大的考验。

3. 数据集的局限性与偏见:

我们依赖大量标注好的数据集来训练模型,但这些数据集本身也存在一些问题。

数据集的“覆盖率”: 现有的数据集可能无法涵盖所有可能的场景、物体组合、问题类型和语言表达方式。这意味着模型在面对数据集之外的、更真实的、更复杂的场景时,表现会大打折扣。
标注偏差: 人类标注者也可能存在主观性、疲劳或者对特定问题的理解偏差,这会在数据集中引入噪音和不一致性。
“游戏化”的漏洞: 有些数据集的设计,可能会让模型找到一些“捷径”或“窍门”,从而“学会”如何在数据集中获得高分,而不是真正理解视觉和语言。例如,某些简单的问题可能只需要识别特定颜色或物体就能猜对。
偏差传递: 如果训练数据本身存在某些社会偏见(例如,关于职业、性别、种族),模型很可能会继承并放大这些偏见,导致不公平或歧视性的回答。

4. 模型的可解释性与鲁棒性:

即使模型能给出“正确”答案,我们也常常不知道它是怎么做到的,以及它是否真正“理解”了。

“黑箱”问题: 深度学习模型,尤其是复杂的VQA模型,往往是一个“黑箱”。我们很难理解模型是如何结合视觉特征和语言输入的,也难以诊断它出错的原因。这限制了我们对其可靠性的信任。
对抗性攻击: 模型容易受到微小、人眼难以察觉的扰动影响,从而给出错误的答案。例如,对图像进行轻微的像素改变,就可能让模型错误地识别物体或回答问题。
泛化能力: 模型在训练集上表现很好,但在稍有不同的新数据或场景上表现就会大幅下降。如何提高模型的泛化能力,让它能适应更广泛、更未知的情况,是关键。

5. 跨模态联合表示的瓶颈:

核心问题之一是如何将视觉信息和语言信息进行有效的融合和表示,让他们能够相互“对话”。

“对齐”的难度: 如何精确地将问题中的词语(如“篮子”、“旁边”、“红色”)与图像中的特定区域和视觉特征进行匹配,这是一个细致入微的工作。
信息损失: 在将图像转换成数值表示(如特征向量)的过程中,必然会存在信息的损失。如何尽可能地保留图像的关键信息,同时又能使其与语言信息兼容,是一个持续的探索。
联合学习的挑战: 如何设计出能够同时学习视觉和语言的神经网络架构,并让它们在“理解”上有更深层次的互动,而不是简单的拼接,是研究的热点。

总而言之,VQA领域虽然取得了令人瞩目的进步,但要让模型真正像人类一样“看懂”世界并“说”出有意义的答案,还有很长的路要走。它需要我们不仅在模型架构、训练策略上不断创新,更要在数据、算法、甚至我们对“理解”本身的定义上进行更深入的思考。这就像是给计算机装上了一双能够理解人话的眼睛,但现在这双眼睛还需要学习如何去“看”这个复杂的世界,并且能和我们进行有意义的交流。

网友意见

user avatar

我感觉最近researchers在反思VQA/image captioning这个task本身,不再盲目魔改模型,追accuracy的提升。因为比起技术性问题,更致命的是,数据集和evaluation metrics的问题。问题没定义好(dataset & metrics),何谈解决好(model)?

更何况,VQA是一个很现实的问题,我们不是在谈论如何高那一个百分点,而是说,怎样把这个task真真实实的,应用在生活中,这样就需要考虑很多别的事情,比如隐私问题,比如AI模型给出的答案怎么更可信可靠 ,怎么才能有和人更好的交互。


数据集的挑战:

(1) 不够贴合实际。MS COCO/VQA v2这些数据集的图都是收集于网络(Flicker之类的), 太干净了, 一些用于reasoning推理的数据集的图甚至是电脑自动生成的,问题也要么是crowd workers问的或是电脑生成的。完全理想状况下训练的模型,自然在日常使用一塌糊涂。

(2) 缺乏多样化的回答。给一张图,人类回答问题/给出描述的时候总是各种各样的,要么因为看的区域不同所以给的答案/描述不同;要么因为看的区域相同但是背景知识不同或者语言表述不同而产生了不同的答案。

现在流行的VQA数据集基本都是基于英语的, 收集过程中也不考虑不同国家不同文化程度的人对物体有不同的认知以及背景知识。

现在VQA/captioning的模型,则很少考虑如何产生多样性答案,report结果的时候更不report diversity/variance。

现在的关于visual grounding的模型,更是默认只ground一个answer,没考虑“看的区域不同”,给出的答案/描述可能不同。

以下分享一些2020年的关于“diverse answer/captioning”文章:

关于image captioning ground truth的数目的影响:Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations

controllable image captioning: https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Say_As_You_Wish_Fine-Grained_Control_of_Image_Caption_Generation_CVPR_2020_paper.pdf

(3)human-in-the-loop。现在的VQA是one-shot(一轮)and one way(单向)的。未来VQA可能不只是 对一张图片,问一个问题,获得一个答案,而会加入多轮对话(visual dialog),可以对一组图片(比如一个物体的不同角度),问多组问题或Follow-up question。计算机也不仅仅是会回答问题,也可以主动发问来获取用户没有提供的信息(visual question generation & active learning)。总之要让用户和计算机有真正的交互。

(4)隐私保护 & 内容警告 & 可信可靠的系统。

隐私保护:图片中隐私信息自动打码(e.g., 银行卡信息相关的VQA)。

黄赌毒色等信息的内容警告:涉及这些的VQA要加上content warning。

可信可靠的系统:举个例子,当用户问:“这是啥调料”,和问“这个药一天吃几片”,明显问“这个药一天吃几片”需要更可靠的AI system。前者能在confidence程度低的时候给出答案,但是后者如果confidence不高,还不如说I don't know,不然可能造成严重后果。另外比如图表相关的VQA/描述,也需要很高的准确性。

(5)VQA external knowledge:现在的VQA数据集缺乏在图片背后的关于这个世界的信息,比如时间上的,空间上的,认知的,社会的信息。现在的VQA一般从concept net 或者DBpedia中获取额外信息。


Metrics的挑战:

无力吐槽,一塌糊涂:BLEU, ROUGE, METEOR, CIDEr, SPICE。近年出了BERTScore(不人工定义metrics,而是另外design一个模型去学习如何评价模型)。


模型的挑战:

(1) Image feature extractor,如Sakura所说,效果不咋地 。2016-17年多用ResNet-152, 自从Buttom Up Top Down (BUTD)获得18年VQA challenge的冠军后,一大批人跟着用BUTD或者Buttom Up (Faster-R CNN)。2020年几篇paper开始回归grid/pixel features。

(2) counting & text related problem。

(3) 如果说图所提供的是internal knowledge,应该怎么和external knowledge (常识,各种专业知识) 结合来产生回答。


NLP的挑战:

大家可以看看这篇文章列举的VQA在语言方面的挑战,包括reasoning, ambiguity, vagueness, negation, and pragmatics。

Models are required to master a variety of language phenomena, such as language ambiguities, pragmatic aspects and context dependence, negation, entailment, mutual exclusivity and all the reasoning skills subtending them. Linguistic issues behind visual question answering

这几年我觉得比较有意思的方向:

(1)Neural-Symoblic VQA: MIT有一个组在做Neural-Symbolic VQA, song-chun zhu组里的Qing Li 最近两篇paper也是Neural-Symbolic VQA。

(2)VQA+常识+推理: scene graph是一个典型的方向,挺多组在做的。

(3)有好奇心的VQA系统: 论文1:Active Learning for Visual Question Answering: An Empirical Study

(4)因果论+VQA。

(5)认知科学+VQA:认知科学中的attention, memory, learning process, vision system都能启发VQA的进步。


前路漫漫,要登上月球还远着呢

最近从《The book of why》,Song-Chun Zhu的blogs和AI debate2得到了些启发。

希望未来的VQA不仅仅是停留在“See”,而是看到浮在表面的5%的图,能懂得图下95%的“暗物质”:functionality, physics, intent, causality, and utility (FPICU)。(详情看Song-Chun Zhu的blog)。

不仅仅是在"See",而是能慢慢爬上因果之梯,会“do”和“imagine”。(详情请看《the book of why》)


VQA/image captioning的现实应用:

我现在见到的关于VQA的应用有:盲人的视觉问答,搜索引擎(不单单是以图搜图或者以文字搜信息,而是结合 图+问题,搜索出答案),智能驾驶领域,医疗问答,商品相关的对话系统,科学文档问答(docVQA)。

关于Image Captioning的应用有:Facebook/youtube的图像标注/视频概述,Slides(PPT)给图像自动加上描述方便用户编辑。



VQA在NLP角度上,是Visual dialog的垫脚石。

VQA在CV角度上,是Video-QA的垫脚石。

VQA不是终点哈

类似的话题

  • 回答
    好的,我来试着从一个AI的角度,尽可能深入地聊聊当前VQA(视觉问答)领域面临的主要挑战,力求表达自然,避免AI痕迹。VQA,这个把“看”和“问”结合起来的领域,听起来挺酷炫的,对吧?我们训练模型,让它们既能理解图像,又能理解人类的自然语言问题,然后给出准确的答案。这本身就是个复杂的任务,因为它需要.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有