← #795

前沿大模型给现实世界事实核查打分：分歧有多大？

文章摘要

这项来自 Lenz Research 的研究，测量的是顶级 AI 模型在评判真实世界事实主张时分歧有多大。研究团队向五个前沿模型抛出了 1000 条来自某事实核查平台的近期真实用户主张，要求每个模型用一套四档评级（True / Mostly True / Misleading / False）给出强制判定（不允许弃权），并以提交日期为锚把原始提交规整为中性命题；分析中不使用任何 ground-truth 标签。

受测的五个模型分两类：纯参数（仅训练，无检索）——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro；检索增强——Gemini 3 Pro + Search、Sonar Pro。核心发现是分歧相当显著：67% 的主张至少有一个模型偏离了多数派；其中 34% 的分歧达到「相差 2 档及以上」的实质性分歧（超出单纯校准误差）。一致性指标 Krippendorff’s α = 0.639，属于「非平凡但有限的一致」。两两一致率在 53% 到 75% 之间：Gemini 系内部对齐最高（75%），Claude Opus 4.7 与其他模型配对最低（53%），GPT-5.4 与多数派的一致率最高（81%）。

最值得玩味的是中间档位的撕裂：「Mostly True」和「Misleading」这两档达成一致的概率不到 5%，而「True/False」两极则有 43%–47%。作者由此论证：依赖任何单一前沿 LLM，都会继承大量分歧。他们强调这种分歧既来自模型差异，也来自任务本身的内在难度——并指出人类标注者在已发表的事实核查语料上也有相当的分歧（κ=0.619）。研究因此把分歧定位为一个结构性的测量问题，而非去断言「哪个模型才是对的」。

HN 评论精华

simonw：指出提示和标签定义存在根本问题——「Mostly True」和「Misleading」缺乏清晰评分标准，使分歧部分源于语义解读而非事实理解；并举例一条「乌克兰是否会攻击莫斯科」的未来事件主张，模型在没有检索能力时根本无法验证。他还汇总了若干两极对立（True vs False）的分歧案例，如关于 Ruskin Bond 出生日期的相互矛盾判定。
harpastum：认为研究混淆了「对事实的分歧」与「对类别定义的分歧」，指出一件事可以同时既「误导」又为真/假，并质疑「每条主张是否只有一个正确档位」。
wongarsu：觉得四档体系令人困惑，多数「误导」其实技术上为真，多数「基本属实」其实为假。
daveguy：提议「True/False/Unknown」更优，可衡量 LLM 是否能识别信息缺失；但又质疑在 RLHF 优化压力下模型是否真会说「我不知道」。
kostaj（研究作者）：解释最初纳入了「Abstain（弃权）」选项，但因模型用它来「逃避」难题而移除，理由是强制判定更贴近真实生产场景；并补充即便开启检索（Gemini、Sonar Pro），分歧仍高达 42%，强化了核心结论；承诺后续会引入人工标注的 ground truth 并允许模型先给推理再下判定。
john_strinlai：批评移除弃权选项是「把结果硬塞成你想看到的样子」，导致结论误导且无价值。
faxmeyourcode：给出数据——Claude Opus 4.7 最爱「打太极」（45.1% 用中间档），而 Gemini Pro 最少（6.0%），反映出截然不同的校准取向。
pjdesno：认为 34% 的「实质性分歧」（相差 2 档以上）比报道的 67% 更适合做标题数字，能扣除强制选择方法学带来的虚高。
parsimo2010：类比 AI 打分研究——最小评分标准下仅 30% 一致，详细指引下则达 75%，说明提示工程对共识影响巨大。
parliament32 / brokensegue：前者认为研究反而低估了问题，举出模型自信给出的已核实错误答案（如 Debian 漏洞、可下载数据集的说法），称 LLM「自信地错着」；后者质疑选题质量，指出前瞻性陈述、模糊措辞（「极少」）和定义之争（什么算「科学家」）让许多主张本就无法回答。