前沿大模型给现实世界事实核查打分:分歧有多大?
文章摘要
这项来自 Lenz Research 的研究,测量的是顶级 AI 模型在评判真实世界事实主张时分歧有多大。研究团队向五个前沿模型抛出了 1000 条来自某事实核查平台的近期真实用户主张,要求每个模型用一套四档评级(True / Mostly True / Misleading / False)给出强制判定(不允许弃权),并以提交日期为锚把原始提交规整为中性命题;分析中不使用任何 ground-truth 标签。
受测的五个模型分两类:纯参数(仅训练,无检索)——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro;检索增强——Gemini 3 Pro + Search、Sonar Pro。核心发现是分歧相当显著:67% 的主张至少有一个模型偏离了多数派;其中 34% 的分歧达到「相差 2 档及以上」的实质性分歧(超出单纯校准误差)。一致性指标 Krippendorff’s α = 0.639,属于「非平凡但有限的一致」。两两一致率在 53% 到 75% 之间:Gemini 系内部对齐最高(75%),Claude Opus 4.7 与其他模型配对最低(53%),GPT-5.4 与多数派的一致率最高(81%)。
最值得玩味的是中间档位的撕裂:「Mostly True」和「Misleading」这两档达成一致的概率不到 5%,而「True/False」两极则有 43%–47%。作者由此论证:依赖任何单一前沿 LLM,都会继承大量分歧。他们强调这种分歧既来自模型差异,也来自任务本身的内在难度——并指出人类标注者在已发表的事实核查语料上也有相当的分歧(κ=0.619)。研究因此把分歧定位为一个结构性的测量问题,而非去断言「哪个模型才是对的」。
HN 评论精华
- simonw:指出提示和标签定义存在根本问题——「Mostly True」和「Misleading」缺乏清晰评分标准,使分歧部分源于语义解读而非事实理解;并举例一条「乌克兰是否会攻击莫斯科」的未来事件主张,模型在没有检索能力时根本无法验证。他还汇总了若干两极对立(True vs False)的分歧案例,如关于 Ruskin Bond 出生日期的相互矛盾判定。
- harpastum:认为研究混淆了「对事实的分歧」与「对类别定义的分歧」,指出一件事可以同时既「误导」又为真/假,并质疑「每条主张是否只有一个正确档位」。
- wongarsu:觉得四档体系令人困惑,多数「误导」其实技术上为真,多数「基本属实」其实为假。
- daveguy:提议「True/False/Unknown」更优,可衡量 LLM 是否能识别信息缺失;但又质疑在 RLHF 优化压力下模型是否真会说「我不知道」。
- kostaj(研究作者):解释最初纳入了「Abstain(弃权)」选项,但因模型用它来「逃避」难题而移除,理由是强制判定更贴近真实生产场景;并补充即便开启检索(Gemini、Sonar Pro),分歧仍高达 42%,强化了核心结论;承诺后续会引入人工标注的 ground truth 并允许模型先给推理再下判定。
- john_strinlai:批评移除弃权选项是「把结果硬塞成你想看到的样子」,导致结论误导且无价值。
- faxmeyourcode:给出数据——Claude Opus 4.7 最爱「打太极」(45.1% 用中间档),而 Gemini Pro 最少(6.0%),反映出截然不同的校准取向。
- pjdesno:认为 34% 的「实质性分歧」(相差 2 档以上)比报道的 67% 更适合做标题数字,能扣除强制选择方法学带来的虚高。
- parsimo2010:类比 AI 打分研究——最小评分标准下仅 30% 一致,详细指引下则达 75%,说明提示工程对共识影响巨大。
- parliament32 / brokensegue:前者认为研究反而低估了问题,举出模型自信给出的已核实错误答案(如 Debian 漏洞、可下载数据集的说法),称 LLM「自信地错着」;后者质疑选题质量,指出前瞻性陈述、模糊措辞(「极少」)和定义之争(什么算「科学家」)让许多主张本就无法回答。