炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:科技行者)
这项由上海交通大学、上海人工智能实验室和香港中文大学联合完成的研究,以预印本形式发表于2026年6月(arXiv编号:2606.24548),对当前最先进的文字生成图像(Text-to-Image,简称T2I)模型进行了一次前所未有的"反常识"压力测试。
每逢感恩节前夜,农场里有只火鸡正美滋滋地期待着第二天早晨的到来。它凭借过去三百多天每天早上农夫准时送来食物的经验,坚定地推断出一个"规律":农夫出现 = 有得吃。然而,在它毫无防备的时候,感恩节来临了,一切戛然而止。这只可怜的火鸡就是哲学家伯特兰·罗素在一百多年前描述的"归纳主义火鸡",它犯了一个致命错误——将过去的经验规律当成了永恒的真理,从未思考过"如果规则改变了,结果会怎样"。
研究团队用这个故事来比喻当前的AI图像生成器。这些模型在各类测试中成绩亮眼,能画出精美绝伦的图像,让许多人惊呼AI已经"理解"了世界。但研究团队的核心疑问是:它们真的理解了世界的运作规则,还是只是像那只火鸡一样,从海量训练图片中归纳出了"什么东西通常长什么样"的统计规律?一旦规则被改变,它们还能跟上吗?
为了回答这个问题,研究团队构建了一套名为"反事实世界基准测试"(CF-World)的考题,专门用来检验AI图像生成器在"规则被改写"的假想世界里,还能不能生成符合逻辑的图像。测试结果相当令人清醒:几乎所有模型都像那只火鸡一样,在规则改变的那一刻彻底懵圈了。
一、"反常识"考卷是怎么设计的?
理解这套考题的设计思路,需要先明白研究团队想测试的到底是什么。普通的图像生成测试大多是这样的:告诉AI"画一只坐在沙发上的猫",然后看AI画出来的猫像不像、沙发像不像。这类测试考的是AI有没有记住"猫"和"沙发"长什么样,以及它们怎么组合在一起。
但研究团队想测试的是更深层的能力——因果推理能力。具体来说,就是当物理定律或者自然规则被人为修改之后,AI能不能根据这个被修改的规则,推断出新的视觉结果应该长什么样,并且画出来。
这套考卷被设计成三个递进难度的关卡,涵盖物理学(包含经典力学、光学、热力学、天文学和电磁学五个分支)、生物学、化学、地理和社会学五大学科,共1091组题目,合计3273道提示词。
第一关叫"事实级别"(L1),考的是正常世界里的常识。比如:画一瓶室温下的水。这一关用来确认AI的基础生成能力没问题,画出来的水应该是液体。第二关叫"显式反事实级别"(L2),研究团队会修改一条物理规律,然后明确告诉AI修改后的结果应该是什么样的。比如:如果水的熔点是100摄氏度(注意:真实世界里水在0摄氏度就开始融化,100摄氏度才沸腾;这里把规则颠倒了,意味着室温下水应该是固态冰),画室温下的水,注意这时候水应该是冰的形态。第三关叫"隐式反事实级别"(L3),同样修改物理规律,但这次不告诉AI结果是什么样的,让AI自己推断。比如:如果水的熔点是100摄氏度,画室温下的水。AI必须自己想明白:哦,熔点提高了,室温远低于100摄氏度,所以水还没开始融化,应该还是固态冰——然后才能画出正确答案。
三关之间的关系就像这样:第一关确认AI能正常画画;第二关看AI能不能克服自己的"习惯性认知",按照被修改的规则来画,即便这与训练数据里见过的图片完全不同;第三关在第二关的基础上,再去掉那根"拐杖"(明确的结果描述),测试AI能不能自己完成逻辑推导。
为了保证考题质量,研究团队先让大语言模型(LLM)根据预先整理好的科学原理来生成题目,然后要求所有题目必须满足四个标准:视觉结果要足够清晰明确(不能模糊地说"看起来很奇怪",要能被评判系统明确判断);必须需要逻辑推理才能回答(不能只是换个颜色或风格);不能涉及暴力或不雅内容;必须有科学依据(考的都是中学课程里的基础知识)。最后,还有一批专业人工审核员对所有题目进行严格筛查,剔除质量不达标的内容。
以其中一道经典力学题为例:事实级别是"画一个在游泳池里趟水的人";显式反事实级别是"如果水的表面张力无限大,画一个试图在游泳池里趟水的人,这个人应该站在水面上走路,不会下沉";隐式反事实级别是"如果水的表面张力无限大,画一个试图在游泳池里趟水的人"。另一道天文学题:事实级别是"画一张太阳系示意图,行星沿椭圆轨道绕日运行";显式反事实级别是"引力变成了斥力,画一张示意图,显示行星从太阳旁飞散开去,沿直线轨迹远离,太阳系正在瓦解";隐式反事实级别是"在天体之间引力变成斥力的情况下,画一张太阳系示意图"。
二、评分系统是如何给AI打分的?
人工逐张审阅成千上万张AI生成图片显然不现实。为此,研究团队设计了一套名为"CF-Eval"的自动化评分流水线,由强大的视觉语言模型(VLM,一种既能看图又能理解文字的AI)来担任考官。
整个评分系统从三个维度对每张图片进行打分,三个维度的重要性不同,因此分配了不同的权重。第一个维度是"视觉完整性",权重最低(1到3分),考查图片质量本身够不够基本,比如画的人有没有解剖结构错误、整体质量是否可以接受;第二个维度是"评估点",权重最高(12到16分),这是根据每道题目专门制定的核心考查问题,直接测试生成的图片有没有体现出被要求的关键视觉特征,比如那道水面张力题的评估点就是"图中的人是否正站在水面上行走,身体没有任何部分沉入水面以下";第三个维度是"逻辑一致性",权重居中(7到9分),检查整个场景的背景和细节有没有也符合反事实的设定,而不是主体符合了但背景还是正常世界的样子。
最终每张图片的得分是这三个维度按权重计算的加权平均分。研究团队还设计了一个"门槛机制":如果一道题的第一关(事实级别)得分低于0.5分,那么这道题的第二关和第三关得分直接归零,不予计算。原因很简单:如果AI连正常情况下画一瓶水都画不好,那么它在反事实情况下碰巧画出了冰,很可能只是随机运气,而非真正理解了反事实规则。这个0.5的门槛值也经过了人工校准实验的验证,研究团队抽取了150张边界分数区间的图片,让专业人员人工标注,发现0.5确实是人类认知"这张图基本合格"的最优分界点,在这个门槛下准确率高达94%,F1得分高达0.93。
为了量化模型在三关之间的表现差异,研究团队还设计了两个专门的衡量指标。"先验抵抗率"(PRR)衡量的是模型从第一关到第二关的表现保留程度,也就是说,当被要求画反常识图像时,模型能在多大程度上抵制自己的"习惯性思维",按照新规则来画。"推理保留率"(RRR)衡量的是模型从第二关到第三关的表现保留程度,也就是在没有明确告知结果的情况下,模型能在多大程度上靠自己的推理能力补全逻辑链条。这两个指标的计算方式经过精心设计,避免了模型因为某一关得分本来就很低而导致"率"看起来虚高的问题——它们同时考虑了绝对得分和相对保留比例,取二者的几何平均值。
三、14个顶尖AI模型,考结果如何?
研究团队找来了14个当前最顶尖的文字生成图像模型参加这场考试,其中包括开源模型和闭源商业模型两大阵营。开源模型包括SANA 1.5、Janus-Pro-7B、Show-o2、Z-image、Lumina-DiMOO、BAGEL、BAGEL-CoT、OmniGen2、FLUX.2-dev和Qwen-Image;闭源商业模型包括Nano Banana、Nano Banana Pro、GPT-Image-1.5和Seedream 5.0。
成绩出来了,总体结论只有一句话:几乎所有模型都在第一关和第二、三关之间出现了断崖式下滑。
具体数字来看,开源模型在第一关的得分普遍在0.75到0.88之间,说明它们在正常画图这件事上确实做得不错。然而一旦进入第二关(显式反事实),得分急剧跌落到0.21到0.48之间,先验抵抗率大多低于0.50。到了第三关(隐式反事实),情况更加严峻,得分进一步下滑到0.11到0.28之间。
闭源商业模型的表现整体优于开源模型,但同样无法逃脱这个下滑趋势。Nano Banana Pro在Gemini评判下的第一关得分为0.93,第二关0.76,第三关0.67,先验抵抗率0.79,推理保留率0.77,是所有参测模型中表现最好的。即便如此,从第一关到后两关的下降依然清晰可见。
有一个特别有趣的发现:那些在第一关得分最高的模型,并不总是在第二关表现最好。Qwen-Image在第一关拿到了0.84分(Gemini评判下0.80分),但其先验抵抗率却低于FLUX.2-dev。这个现象背后的逻辑是:一个模型越是在训练数据里见过大量"标准图片",对"标准样貌"的记忆就越根深蒂固,反而更难接受与之相违背的反常识指令。这就好比一个厨师,他做了二十年的红烧肉,每次都是按固定配方来的,现在突然叫他把所有调料都颠倒使用,他反而比一个只有五年经验的新厨师更难做到——因为旧习惯对他的束缚更深。
另一个值得注意的发现是关于"思维链"(Chain-of-Thought,CoT)推理方式。BAGEL-CoT相比BAGEL在第二关和第三关的表现确实有所提升(先验抵抗率从0.34提升到0.45,推理保留率从0.28提升到0.41,Gemini评判下),但提升幅度相当有限。研究团队认为,这是因为语言推理和视觉生成之间存在一道本质性的鸿沟:语言是离散的符号系统,逻辑推理在这里相对容易进行;而扩散模型(Diffusion Model)的视觉生成过程是在连续的高维空间里进行的,即便文字侧已经推理出了"水在室温下应该是冰",视觉侧的生成网络也未必能够把这个推理结果正确地转化为像素。
四、为什么AI会在反事实考题上失败?
表面现象已经看清楚了,但研究团队并不满足于此,他们想追问一个更根本的问题:这些AI究竟是在哪个环节出了毛病?为此,他们设计了三组机制性实验,像医生做系列检查一样,逐步定位病灶。
第一组检查叫"因果规则解耦实验"。这组实验想知道:排除掉"画图难"这个干扰因素,AI在纯粹的规则理解和规则应用上,表现怎么样?研究团队设计了一套使用抽象符号而非写实图像的测试题,共198道提示词,覆盖33条客观规则。每条规则有1到2道事实基准题和4到5道反事实变体题,而且变体题的扰动方式不仅仅是简单地"把A改成非A",而是多维度的——比如不只是把"向下的重力"改成"向上的重力",还会改成"向左的重力"或"向右的重力"。
结果显示,即便在这种视觉复杂度大幅降低的简化场景里,大多数模型在反事实规则下的绝对得分依然相当低。这说明AI的问题不仅仅出在"画不出来",更出在"想不明白"。不过值得注意的是,在事实规则下得分更高的模型,通常在反事实规则下也能得到相对更高的分数,这意味着规则理解能力本身就是一个关键瓶颈,而不仅仅是因为训练记忆里有太多"正常图片"造成干扰。在这组测试中,扩散架构的模型(如FLUX.2-dev和Z-image)总体表现优于统一多模态架构的模型(如OmniGen2和Janus-Pro-7B)。
第二组检查叫"属性解耦实验"。这组实验想知道:排除掉规则推理这个难题,AI能不能把不常见的视觉概念组合在一起画出来?研究团队从已有数据集中抽取了100对"罕见概念组合"作为反事实条件(比如"穿西装的海豚"),同时为每对概念生成一个对应的"常见概念组合"作为事实条件(比如"在水里游泳的海豚")。结果发现:在常见组合的情况下,模型得分普遍很高(0.92到0.99);但在罕见组合的情况下,得分一致性地下滑到0.80到0.90之间。虽然这个下滑幅度相对较小,但它告诉我们:即便不需要任何逻辑推理,只是要求AI把不常见的东西画在一起,它就已经开始出错了。
第三组检查叫"去名词化实验",这是最有趣的一组。研究团队在第二关的提示词里,把关键的名词换成了等价的描述性短语,然后看看这样能不能帮助AI表现得更好。比如,原本的提示词里可能直接说"画一块冰",换成描述性短语之后变成"画一个固态的、透明的、低温的水分子聚合体"。换句话说,绕开那个直接触发记忆的词,用描述来代替。
结果出来,所有模型的得分确实都有提升,但幅度参差不齐。FLUX.2-dev的提升幅度最大,高达0.09;Z-image和Show-o2提升了0.05;而Janus-Pro-7B、SANA 1.5和BAGEL-CoT的提升幅度仅有0.01。这个差异揭示了两种不同类型的"记忆枷锁":对于以FLUX.2-dev为代表的扩散架构模型来说,它们的问题主要出在词汇层面——一个特定的名词会直接激活对应的标准视觉记忆,只要把词换掉,这个触发机制就被部分绕开,生成质量随之提升;而对于以Janus-Pro-7B为代表的统一多模态架构模型来说,它们的问题更深,出在语义层面——即便换了措辞,背后的概念还是一样的,所以换词没什么用,这种"记忆枷锁"已经深入到了共享表征空间里。
综合这三组检查,研究团队得出了一个清晰的诊断:当前AI图像生成器的反事实推理失败,源于两层能力缺失的叠加。第一层是"规则解耦"能力的缺失——模型无法把物理规律这个抽象概念从具体的视觉表现中剥离出来,独立修改规律再重新推导结果;第二层是"属性解耦"能力的缺失——模型无法把物体的视觉外观和物体的"通常搭档"分开,总是被高频的视觉共现关系牵着鼻子走。在这两层失败中,前者(规则推理层面)才是更根本、更主要的瓶颈,因为这是一种对更高层次逻辑推理的要求,远超出单纯"把不常见的东西画在一起"的难度。
五、自动化评分有多可靠?
研究团队深知,如果评分系统本身不可靠,所有结论都将失去意义。为此,他们专门进行了一次人机对比实验,从FLUX.2-dev和Nano Banana Pro生成的图片中随机抽取了1000张,分别请Gemini视觉语言模型和三位具有计算机视觉领域研究生背景的专业人工标注员进行评分。人工标注员在正式评分前接受了专门针对反事实评估标准的培训,所有分数都被归一化到0到1的连续区间,并用相同的加权方式计算。
对比结果显示,Gemini与人工标注员的得分差异(机器得分减去人工得分)绝大多数集中在-0.125到+0.125这个极窄的区间内,分布曲线在0附近形成了一个尖锐的峰值,说明机器评分与人类判断之间的一致性非常高。这有力地证明了CF-Eval作为人类专家评判的替代工具是可靠的。
研究团队还注意到,两个视觉语言模型评判员(Gemini和Qwen)在反事实场景下存在明显的行为差异:Gemini保持了相对均衡的评判标准,而Qwen表现出明显的"宽容偏差",常常对实际上只画出了正常物体的图片给出偏高的分数。为了消除这种偏差,研究团队对Qwen使用了不同的提示词设定——将Qwen定位为一个"严苛的对抗性评判官",主动要求它去寻找图片中的逻辑破绽而非正面解读。通过这种针对不同评判员的差异化提示策略,使得两者最终在反事实评判的严格程度上趋于一致。
说到底,这项研究做的事情,就是给AI图像生成器出了一套"换个世界你还认得路吗"的考题。结果发现,这些看起来无所不能的图像生成器,其实更像是一个拥有惊人视觉记忆的照相机,而不是一个能够理解物理逻辑、独立推演结果的工程师。当你按照训练数据里存在的场景来要求它,它表现优异;但一旦你要求它"假设引力是斥力,那太阳系看起来是什么样的",它就开始画出照常运行的太阳系——因为那是它见过的最多的版本。
这个发现对普通人的意义或许并不直接体现在日常使用上——毕竟大多数人不会没事去问AI"水在熔点100度的世界里是什么状态"。但它揭示了一个更深层的问题:我们目前对AI能力的评估方式,很可能低估了这些模型和真正"理解世界"之间的差距。一个模型能够生成令人信服的图像,并不等同于它理解了图像背后的因果规律。反过来,如果未来有模型能够在CF-World这套考题上取得高分,那才是真正意义上的"理解",而不只是"记忆"。
研究团队明确指出,他们目前的工作性质是诊断性的,并没有提出解决"概念纠缠"问题的具体算法方案。他们希望CF-World这套考题能成为一个持续有效的测试平台,激励未来的研究朝着开发能够真正进行因果推理的模型方向努力——不只是更多的训练数据,而是本质上不同的模型架构或训练方式。至于那两种不同类型的纠缠(扩散模型的词汇层纠缠和统一模型的语义层纠缠),研究团队也指出它们需要根本不同的解决策略,前者或许通过改进提示词或文本编码器就能部分改善,而后者则需要在模型表征层面进行更深入的干预。
有兴趣深入了解的读者,可以通过arXiv编号2606.24548查询完整论文。
Q&A
Q1:CF-World反事实基准测试具体测了哪些内容?
A:CF-World包含1091组场景,共3273道提示词,覆盖物理学(经典力学、光学、热力学、天文学、电磁学)、生物学、化学、地理和社会学五大学科。每组场景分三个难度关卡:第一关按正常规律画图,第二关在修改物理规则的同时明确告诉AI该画什么结果,第三关只修改规则但不说明结果,要AI自己推理后再作画。
Q2:先验抵抗率(PRR)和推理保留率(RRR)分别是什么意思?
A:先验抵抗率衡量AI在被要求画反常识图像时,能在多大程度上克服自己的"习惯性记忆",按照被修改的规则来画,也就是第一关到第二关的性能保留程度。推理保留率则衡量AI在没有明确告知结果的情况下,能靠自己的逻辑推理填补空缺,也就是第二关到第三关的性能保留程度。两个指标越高,说明模型的反事实推理能力越强。
Q3:为什么那些在普通测试中得分很高的AI模型,在反事实测试里反而可能表现更差?
A:这是"先验锁定"效应导致的。一个模型训练数据越多,对"正常世界"里事物外观的记忆就越根深蒂固。当被要求按照修改后的规则来画时,强烈的旧记忆反而会干扰新指令的执行。就像一个习惯了固定配方的老厨师,比新手更难接受把所有调料都颠倒使用的要求。测试数据显示,Qwen-Image在第一关得分很高,但先验抵抗率却低于第一关得分更低的FLUX.2-dev,正是这个原因。