前沿大模型给现实世界事实核查打分:分歧有多大?

查看原文 HN 讨论

文章摘要

这项来自 Lenz Research 的研究,测量的是顶级 AI 模型在评判真实世界事实主张时分歧有多大。研究团队向五个前沿模型抛出了 1000 条来自某事实核查平台的近期真实用户主张,要求每个模型用一套四档评级(True / Mostly True / Misleading / False)给出强制判定(不允许弃权),并以提交日期为锚把原始提交规整为中性命题;分析中不使用任何 ground-truth 标签。

受测的五个模型分两类:纯参数(仅训练,无检索)——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro;检索增强——Gemini 3 Pro + Search、Sonar Pro。核心发现是分歧相当显著:67% 的主张至少有一个模型偏离了多数派;其中 34% 的分歧达到「相差 2 档及以上」的实质性分歧(超出单纯校准误差)。一致性指标 Krippendorff’s α = 0.639,属于「非平凡但有限的一致」。两两一致率在 53% 到 75% 之间:Gemini 系内部对齐最高(75%),Claude Opus 4.7 与其他模型配对最低(53%),GPT-5.4 与多数派的一致率最高(81%)。

最值得玩味的是中间档位的撕裂:「Mostly True」和「Misleading」这两档达成一致的概率不到 5%,而「True/False」两极则有 43%–47%。作者由此论证:依赖任何单一前沿 LLM,都会继承大量分歧。他们强调这种分歧既来自模型差异,也来自任务本身的内在难度——并指出人类标注者在已发表的事实核查语料上也有相当的分歧(κ=0.619)。研究因此把分歧定位为一个结构性的测量问题,而非去断言「哪个模型才是对的」。

HN 评论精华