这项由弗吉尼亚大学与美国国立卫生研究院联合开展的研究,以预印本形式于2026年5月发表,论文编号为arXiv:2605.20158。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

一、当医生说"我看这里有问题",AI却说不清楚在看哪里

假设你去医院拍了一张胸部X光片,医生拿着片子指着某个区域说:"你看这里,肺纹理增粗,有炎症迹象。"你会觉得安心,因为医生能明确告诉你他的判断依据在哪里。

现在换成AI来读这张片子。AI信心满满地说:"这张片子有问题。"你追问:"哪里有问题?"AI沉默了一会儿,要么给你一张模糊的热力图,要么随手在片子上圈了一个大大的区域——然而这个区域可能包含了大半个肺,也可能根本不是真正有问题的地方。

这正是当前医学人工智能面临的核心困境。那些被寄予厚望的大型视觉语言模型(可以把它理解为"能看图说话的AI"),在医学图像分析上展现出了令人印象深刻的能力,但当被问到"你凭什么这么说"时,它们往往无法给出令人信服的答案。

弗吉尼亚大学与美国国立卫生研究院的研究团队决定较真地查这件事。他们不只是在抱怨问题的存在,而是系统性地测量了这个问题有多严重,并提出了一套新的解决方案。他们的核心发现让人警醒:目前广泛使用的11种主流"解释AI"的方法,在面对真实医学图像时,几乎没有一种能够可靠地告诉我们AI到底在看什么地方。与此同时,他们提出了一种名为MedFocus的新方法,通过模拟"遮住这块区域看AI会怎么反应"的思路,大幅提升了解释的准确性。

二、为什么AI说"我看到了问题"还不够——可信度危机的根源

要理解这个问题,先得搞清楚"归因"是什么意思。在医学AI的语境里,归因就是找出AI做出某个判断时,它实际上"看的"是图像的哪个部分。

用一个日常比喻来说明:你在大街上看到一辆车,判断说"这辆车是红色的"。如果有人问你凭什么这么判断,你会指着车身说"因为车身是红的"。这个"指向车身"的动作,就是归因。

对医学AI来说,归因不仅仅是个技术好奇心的问题,而是关乎生死的安全问题。如果AI说一张胸片有肺炎,但它其实是根据图像边缘的标注文字做出的判断,而不是根据真正的病灶,那这个AI在临床使用中就是危险的。更糟糕的是,由于AI内部结构极为复杂,就像一个装着几十亿个齿轮的黑盒子,我们很难直接观察它的"思考过程"。

为了解决这个问题,研究者们已经开发出了各种各样的"归因方法",试图从外部推断AI在关注什么。这些方法大致分为四类。基于梯度的方法通过计算"如果某个像素稍微变化一点,AI的结论会变多少"来判断重要性,就像测试哪根弦最敏感;基于注意力的方法则直接读取AI内部的"注意力权重",看它自己声称在关注哪里;基于扰动的方法把图像的各个区域依次遮住,观察AI的结论如何变化;基于提示的方法则直接问AI"你在看哪里",让它自己指出来。

然而,这些方法到底有多可靠,以前几乎没有人认真验证过。原因很简单:验证需要"标准答案",而"AI到底在看哪里"这件事,本来就没有标准答案。

三、研究团队如何搭建一个测试场——打造"因果验证"的试验台

弗吉尼亚大学的研究团队解决这个问题的思路,本质上是一种"做实验"的逻辑,而非"猜测"的逻辑。他们的核心思想是:与其猜AI在看哪里,不如直接改变某个区域的内容,看AI的判断会不会跟着改变。如果改变了,说明AI确实在看那里;如果没有改变,说明AI根本不在乎那个区域。

这个逻辑其实非常朴素,就像你怀疑一个学生在考试时作弊是靠偷看邻座,那你把邻座的答案改错,看他的答案有没有跟着改变就行了。

为了实现这个思路,研究团队精心构建了一个专门的测试数据集,命名为MedGround-Bench。他们从三个公开的胸部X光数据集出发,包括ImaGenome、VinDR-CXR和PadChest-GR,这三个数据集的共同特点是:每张图片不仅有放射科医生的诊断标注,还有精确的区域标注——也就是说,医生不只告诉你"这张片子有病变",还会标出"病变在图像中的具体位置"。

研究团队把这些标注转化为一问一答的形式。对每一个病变区域,他们都构造出一个是非题,例如"这张图片中有肺间质性疾病的迹象吗?"然后分三步筛选数据,确保最终留下的每个样本都具有经过验证的"因果关系"。

第一步是正确性筛选。研究团队先让AI来回答这些问题,只保留AI回答正确的情况。这一步的逻辑是:如果AI本来就答错了,讨论它"在看哪里"就没有意义了。

第二步是前景反事实编辑。对每个AI答对的问题,研究团队借助一个叫RadEdit的工具,把标注区域内的病变"修掉"——比如把肺部阴影处的密度改成正常肺组织的样子。然后再次问AI同样的问题,看它的答案有没有改变。如果AI原来说"有病变",修掉病变区域后它改口说"没有病变",说明AI确实是靠那个区域做出判断的,该样本被保留。如果AI的答案不变,说明AI根本没在看那里,或者它靠别的什么信息在作答,该样本被淘汰。

第三步是背景反事实编辑。仅靠前景编辑还不够——如果AI对任何图像改动都很敏感,那前景编辑带来的答案变化也可能只是噪声。所以研究团队还把标注区域之外的背景部分进行类似的编辑,再次问AI同样的问题。如果背景被改变后AI的答案不变,才最终确认:AI的判断变化确实是由那个标注区域引起的,而不是什么别的因素。

经过这三轮严格筛选,最终形成了MedGround-Bench,包含直接回答模式下的1880个样本,以及逐步推理模式下的2060个样本,覆盖六种不同的AI模型。这个数据集的特别之处在于,里面的每一个样本都有"经过实验验证的因果关系"——我们确切地知道,这个AI在这张图片上做出这个判断,是因为它在看那个特定的标注区域。

四、打开黑盒子的11把钥匙,几乎没有一把真的好用

有了这个测试台,研究团队系统评估了11种主流的归因方法。他们的评估指标主要是IoU(交并比),可以理解为"AI认为重要的区域"和"真正重要的区域"之间的重叠程度。重叠越高,归因方法越准确;重叠越低,说明归因方法给出的解释"说错了地方"。

测试结果出乎意料地令人担忧。几乎所有现有方法都表现不佳,但不佳的方式各有不同,就像不同的学生用不同的方式考砸了同一道题。

基于注意力的方法,比如Attention Rollout,在ImaGenome数据集上的IoU只有可怜的2.70%,几乎等同于随机猜测。这类方法的问题是它们产生的"热图"过于分散,像是把整张图片都刷上了一层淡淡的颜色,没有任何重点。

基于梯度的方法表现得好一些,但也充满矛盾。以梯度加权注意力方法为例,它在ImaGenome上的召回率高达99.90%,接近完美——但精确率却只有39.24%。这意味着什么呢?召回率高意味着真正重要的区域它都"找到了",但精确率低意味着它同时把大量不重要的区域也标记成了重要区域。用一个不太恰当但直观的比喻:这个方法就像一个粗心的学生,把整篇文章都划成了重点,确实没有遗漏真正的重点,但也失去了"找重点"这件事本身的意义。GradCAM系列方法在某些数据集上表现稍好,但在其他数据集上则明显下滑。

基于扰动的方法,如Occlusion和RISE,表现中规中矩但也没有惊喜。Occlusion在ImaGenome上达到了22.16%的IoU,在VinDR-CXR上达到13.62%,但这些数字在直觉上仍然意味着:归因方法找到的"重要区域"和真正重要区域之间,有大半是对不上的。

基于提示的方法直接问AI自己"你在看哪里",单纯提示法表现最差,而结合MedSAM(医学图像分割工具)的提示法则有所改善,在ImaGenome上达到了37.62%的IoU,但在VinDR-CXR上依然只有8.33%。

相比之下,研究团队提出的MedFocus方法在同样的评测中取得了显著更好的成绩:ImaGenome上54.24%的IoU,VinDR-CXR上14.81%,PadChest-GR上32.77%。虽然绝对数值看起来并不是100%,但这个提升在相对比较上是巨大的,而且这个数字的意义在于:它是在最严格的因果验证条件下测得的。

在逐步推理模式下,大多数现有方法的表现进一步下滑——因为逐步推理需要AI生成一段详细的分析过程,传统归因方法更难应对这种情况。而MedFocus的表现则相对稳健,在ImaGenome的推理模式下仍然保持了52.95%的IoU,验证了它的方法本质上不依赖于AI的内部结构。

五、MedFocus是怎么工作的——一个有方法、有逻辑的"遮眼睛"实验

MedFocus方法的核心思路,其实回到了一个非常朴素的逻辑:如果某个区域对AI的判断很重要,那么当我们遮住它时,AI的判断就应该改变,而且改变得越明显,说明那个区域越重要。

但实现这个思路并不像"随手遮住一块看看"那么简单。MedFocus的设计分为两个主要步骤,可以理解为"先把图划分成有意义的块,再逐块测试重要性"。

第一步是概念分割。MedFocus使用放射科医生日常使用的11个解剖区域作为分析单元,包括心脏轮廓、左肺、右肺、纵隔、上纵隔、左锁骨、右锁骨、左肺门结构、右肺门结构、左肋膈角和右肋膈角。这些区域是放射科医生读片时的"标准参考框架",用人类专家的视角划定了分析范围。

然而,这些解剖区域在每一张新的X光片上位置都略有不同,无法直接套用。为了解决这个问题,MedFocus使用了一种叫做"非均衡最优传输"(UOT)的数学工具。简单说,这个工具的作用是:从一张已知各区域标注的"标准正常胸片"出发,把那张标准片上的区域标注"对应"到目标图片上。这个过程有点像你有一张人体结构图,要把它"对齐"到一个特定病人的X光片上——两个人的体型不同,所以对齐时需要做一些弹性调整,而不是简单地硬套。

研究团队选择"非均衡"版本的最优传输,是因为正常参考片和可能存在病变的目标片之间,解剖结构的分布本来就不是完全一样的。胸腔积液、心脏肥大等病变会改变各区域占据的空间,所以需要一种能够"容忍"这种不对称的对齐方法。

在完成区域对应之后,MedFocus还会借助MedSAM(一个专门用于医学图像分割的工具)对每个区域的边界进行精细化处理,使区域边界更加清晰准确。研究团队通过消融实验(即逐步去掉某个环节,看性能如何变化的测试)验证了这个两步流程的效果:单独使用UOT,或者单独使用其他分割方法,都不如两者结合效果好。

第二步是因果归因。有了清晰的解剖区域分割之后,MedFocus对每个区域进行测试:把这个区域用黑色遮住,然后让AI对原始输出序列重新打分。如果遮住某个区域后,AI对原来输出的"置信度"(用技术术语说就是对数概率)大幅下降,说明那个区域对AI的判断很重要;如果下降不明显,说明AI基本不依赖那个区域。

这里有一个巧妙的设计细节:MedFocus不是让AI重新生成答案,而是让AI对原本已经生成的答案重新"打分"。这样做有两个好处——一是可以避免AI重新生成时引入的随机性(生成式AI每次生成的内容都可能略有不同),二是大大减少了计算量。对每个区域,只需要一次"前向计算"就够了,而不需要反复生成答案再比较。

测试完所有区域(以及几个由多个区域组成的"组合区域",比如"左肺加右肺"视为一个整体)之后,MedFocus选出导致AI置信度下降最多的那个区域,认定它是最重要的视觉证据。

这套方法输出的不只是一个框框,而是三种层次的解释:一个精确的空间位置(标注哪个解剖区域最重要),一个人类可读的概念名称(比如"右肺"),以及在逐步推理模式下,输出序列中每个词受到遮挡影响的程度(可以直观地看出,AI在推理链的哪些部分依赖了哪个解剖区域的视觉证据)。

MedFocus还有一个容错机制:如果AI对所有区域的遮挡都不太敏感,说明AI可能没有依赖任何特定的解剖区域来作出判断,这时MedFocus会直接把整张图标记为归因结果,而不是勉强给出一个不可靠的答案。

六、不同AI模型的"看病习惯"——医学专科训练确实有用

研究团队不只测试了一种AI,而是同时评估了六种不同的开源视觉语言模型,包括两种规模的Qwen2.5-VL系列、两种规模的Gemma3系列,以及两种MedGemma系列——后者是专门针对医学场景进行训练的"医学专科AI"。

通过分析MedFocus在不同模型上的归因结果,研究团队发现了几个规律性的现象,颇为有趣。

首先,医学专科训练确实有显著差异。MedGemma系列模型在所有数据集上的归因质量都明显优于同规模的通用模型Gemma3。在ImaGenome数据集的直接回答模式下,MedGemma-4B达到58.16%的IoU,而Gemma3-4B只有39.33%。这说明医学专科训练不只让模型在答题正确率上更好,还使得模型的"视觉关注点"更贴近真正的临床证据区域。

其次,模型规模的作用在逐步推理时更明显。在直接回答模式下,Qwen2.5-VL-3B和Qwen2.5-VL-7B的归因质量差异不大;但在逐步推理模式下,较大的模型倾向于产生更准确的归因。这背后的解读是:推理链需要模型"组织语言解释过程",这对模型能力要求更高,所以更大的模型在这方面体现出了优势。

第三,逐步推理模式下AI更倾向于关注有意义的解剖区域。MedFocus在推理模式下的"失败率"(即找不到任何起作用的解剖区域的比例)明显低于直接回答模式。这个发现颇耐人寻味——当AI被要求"先想清楚再回答"时,它似乎更倾向于依靠真正的视觉证据,而不是靠直觉或捷径。

研究团队还通过一个三层次的对比来验证MedGround-Bench筛选的有效性。他们把样本分成三组:G1是AI答错的样本,G2是AI答对但没通过因果筛选的样本,G3是最终进入MedGround-Bench的样本。结果发现,从G1到G3,MedFocus归因与专家标注的重叠程度(IoU)呈现明显的上升趋势。这说明,筛选过程确实在将"AI真正依赖了标注区域"的样本筛出来,而不是随机挑选。

七、方法背后的权衡——效率、精度与适用范围

任何新方法都有代价,MedFocus也不例外,研究团队在论文中坦诚地讨论了这些权衡。

从计算效率来看,MedFocus每个样本需要约1.65秒,比最快的注意力方法(约0.4秒)慢了约四倍,但比最慢的集成梯度方法(约7.6秒)快了很多。考虑到MedFocus带来的归因质量提升,这个时间代价是相对合理的。

从方法局限性来看,MedFocus的归因精度本质上受限于所使用的解剖概念词汇表。目前使用的11个解剖区域对于常见的胸部疾病来说已经足够,但对于一些需要更精细定位的情况——比如小结节、弥漫性双侧病变,或者需要通过计算心脏与胸腔比例来判断的心脏肥大——现有的区域划分可能不够精细。不过研究团队指出,这是当前概念词汇表的局限,而不是MedFocus框架本身的结构性限制,未来可以通过扩展词汇表来改善。

消融实验(即逐一去掉某个设计选择、测试性能变化的实验)进一步验证了MedFocus各个组件的贡献。研究团队发现,使用分割掩码加黑色遮挡的方式,效果优于使用AI生成"正常区域"的方式(RadEdit);使用边界框遮挡比使用精确分割掩码遮挡效果更好,原因是边界框遮挡能更彻底地切断AI对该区域的依赖,产生更清晰的因果信号。

对于概念区域的定位,研究团队比较了Grounding DINO(一种基于文本描述进行目标检测的方法)和UOT两种方法。Grounding DINO的召回率高达99.77%,但精确率只有27.74%,说明它会画出极大的框来"确保不遗漏",但框的准确性很差。相比之下,UOT在精确率和召回率之间取得了更好的平衡,最终导致更高的IoU和F1分数。

从概念频率分析来看,在所有测试的样本中,左肺和右肺是被MedFocus识别为最重要区域的最高频选择,这与数据集中大多数问题都涉及肺部病变的特点吻合。心脏轮廓在PadChest-GR数据集上出现频率相对较高,反映了该数据集中心脏和纵隔相关发现的比例更高。而较小的区域,如锁骨、肋膈角等,被选为关键区域的频率很低,只有在这些区域确实存在相关病变时才会被识别出来。

八、这对医学AI的未来意味着什么——从"能用"到"可信"的跨越

研究团队的发现,对医学AI的未来走向有着明确的启示。

最直接的问题是:我们不能再假装现有的归因方法是可靠的。当医院在考虑将AI辅助诊断系统纳入工作流程时,如果那个系统配套的"解释功能"其实在乱指一气,那这个解释功能不只是没用,还可能产生误导。研究团队的数据清楚地表明,在他们最严格的测试条件下,没有一种现有方法能够在所有情况下可靠地定位AI的视觉决策依据。

MedFocus提供了一个更可靠的替代方案,但它的价值不只在于数字上的提升,更在于它产生的解释类型。一个热力图是模糊的,它说"这一带可能比较重要";而MedFocus产生的解释是:"AI的判断主要依赖于右肺区域,当我们遮住右肺时,AI的置信度下降了X%。"后者不只是更准确,而且是临床医生可以直接检验和讨论的信息——"我来看看右肺有没有问题",这是一个具体可操作的下一步。

从更长远的视角看,这项研究也提醒我们,在医学AI的评估体系中,"答题正确率"和"有据可查"是两个不同维度的能力。一个AI可以在测试集上答对90%的问题,但这些正确答案里,有多少是真的依赖了正确的视觉证据,有多少只是"歪打正着",目前我们其实无法有效区分。MedGround-Bench提供了一种方法论上的思路,帮助研究者更系统地回答这个问题。

当然,这项研究本身也有明确的边界。它聚焦于胸部X光,因为这是目前唯一同时具备大规模区域标注数据和区域局部图像编辑工具的医学影像类型。对于CT、MRI等其他模态,类似的测试框架还无法直接应用,需要等到相应工具和数据成熟之后才能推广。此外,研究中的问题都是是非题形式,更复杂的诊断任务——比如让AI写一份完整的影像报告——尚未纳入评估范围。

说到底,这项研究解决的是一个基础性的信任问题:在高风险的医学决策场景中,我们需要知道AI不只是在猜,而是真的在看对了地方再下结论。目前这个问题还远没有被解决,但弗吉尼亚大学和国立卫生研究院的团队为此提供了一套更严格的测量工具,以及一种更可靠的解释方法,这是朝着正确方向迈出的重要一步。

对于普通用户而言,这意味着在AI辅助诊断技术真正可信之前,还需要更多像这样较真的研究——不只问AI"你说得对吗",还要问"你是怎么得出这个结论的",以及最关键的那个问题:"你说的那个地方,真的是问题所在吗?"

有兴趣深入了解这项研究的读者,可以通过arXiv编号2605.20158查阅完整论文,研究团队也在GitHub上公开了相关代码和数据,地址可通过论文获取。

Q&A

Q1:MedGround-Bench是什么数据集,它和普通医学图像数据集有什么区别?

A:MedGround-Bench是一个专门用来测试"AI在医学图像诊断时到底在看哪里"这个问题的数据集。普通医学图像数据集只告诉你图像里有没有病变,而MedGround-Bench通过三轮因果筛选——先确认AI答对了,再把病变区域改掉看AI会不会改口,再把背景改掉确认AI的判断没有因此变化——最终只保留那些确定"AI的判断确实依赖了专家标注区域"的样本。正因如此,它可以被用来客观评估各种归因方法是否真的找到了AI做判断的依据。

Q2:MedFocus和现有的GradCAM等方法比有什么优势,为什么效果更好?

A:GradCAM等方法的问题是它们要么产生过于分散的热图(覆盖很大区域但没有重点),要么对AI内部结构变化很敏感(比如逐步推理模式下性能明显下降)。MedFocus的不同之处在于它不依赖AI的内部参数,而是用"遮住某个解剖区域看AI判断会变多少"这种外部干预的方式来衡量重要性。同时它以放射科医生常用的11个解剖区域为分析单元,输出的结果是"右肺区域最重要"这类临床可理解的解释,而不是一张模糊的热力图。

Q3:这个研究说现有归因方法都不好用,那目前医院里用的AI诊断系统配套的解释功能是否都不可靠?

A:这项研究的测试结果确实表明,在严格因果验证条件下,主流归因方法的准确率普遍不高。不过需要注意的是,这个研究针对的是胸部X光和特定类型的是非题任务,不同场景下各方法的表现可能有所不同。更重要的一点是,很多实际部署的医学AI系统并不一定配备了经过严格验证的归因功能,所以临床使用时不应把AI给出的"解释图"当作与诊断结论同等可信的信息,仍需结合放射科医生的专业判断。