数据科学家的复仇
文章摘要
Hamel Husain 撰写的这篇文章深入探讨了数据科学家在大语言模型(LLM)时代的角色演变,提出了一个振奋人心的论点:数据科学并未衰落,而是正在经历一场复兴。在许多人认为 LLM 和 AI 工程师已经取代数据科学家的时候,作者认为数据科学家的核心技能——评估(evaluation)、数据质量和统计严谨性——比以往任何时候都更加重要。
文章的核心论点围绕评估(Evals)展开。在 LLM 应用中,评估扮演着类似于传统机器学习中测试集的角色。作者认为,构建有效的评估体系需要数据科学家的核心能力:收集高质量评估数据的经验,包括人工标注、任务设计和标注者间一致性(inter-rater agreement)管理。这些技能不是软件工程师或”提示工程师”能轻易掌握的。
作者强调了监控和可观察性的重要性。在传统 ML 中,模型部署后的监控是标准实践,但在 LLM 时代,许多团队在 POC(概念验证)看起来可用后就忽略了系统化的评估工作。作者认为,观察系统在生产环境中的实际行为,比构建复杂的 LLM-as-judge 工作流更有价值。
文章将 LLM 应用的开发过程与传统 ML 进行了类比:上下文数据相当于训练数据,评估相当于测试数据。这个框架帮助数据科学家将已有的经验和方法论直接应用到 LLM 项目中。同时,作者指出统计严谨性在 LLM 时代正在流失——人们过于依赖主观判断和定性评价,而忽视了定量分析和受控实验的重要性。
作者还讨论了数据科学家的独特价值在于将模糊的业务需求转化为可维护的系统,以及在适当的时候说”不”——拒绝不合理的想法或有问题的方法。数据科学家需要理解数据”实际是什么”,而非人们”认为它是什么”,这种数据怀疑主义在 LLM 时代尤为宝贵。
HN 评论精华
角色边界的模糊化:nis0s 指出现在职位头衔的区分变得不那么重要了,更重要的是”产出”。DeathArrow 建议区分数据科学家和 ML 工程师作为独立角色。disgruntledphd2 将角色增殖与零利率时代的过早优化联系起来。
传统 ML 仍不可替代:schnitzelstoat 指出大多数用例仍然使用 XGBoost 等简单模型进行客户分群等任务,而非 LLM。laichzeit0 质疑 LLM 是否能真正替代回归、预测和推荐系统。libraryofbabel 指出传统 ML 模型在排名和匹配方面仍需要定制方案。
评估的困境:cdavid 指出很难说服领导层在 POC 看起来可用时投资评估工作——这是一个普遍的组织挑战。fn-mote 强调”训练数据是真实的,提示不是”,凸显了扎实评估数据的重要性。pbronez 指出当模型评估其他智能体时,评估的复杂性会急剧增加。
统计严谨性的丧失:Blackthorn 观察到”模型中的统计严谨性似乎已经离开了大楼”。efavdb 分享了 LLM 自信地给出错误数学答案的沮丧经历。thesz 引用研究表明,关于”涌现能力”的统计失败是由多重比较问题造成的。
数据科学家的真正价值:kj4211cash 认为数据科学家通过翻译业务需求和调试利益相关者创建的方案来保持价值,而非充当守门人。twelfthnight 强调真正的数据科学工作是将定义不清的请求重新构建为可维护的系统。djoldman 突出了一项被低估的工作:”确认数据实际是什么,有时候要推翻人们以为它是什么”。
LLM 的根本局限:maxwg 指出 LLM 在架构上会陷入局部最小值,”非常类似于 ML 中的过拟合”。mscbuck 指出 LLM 在合法的业务指标方面表现不佳,超出了标准精确率/召回率的范畴。
AI 工程师的坦白:codebolt 作为 AI 工程师坦承,不确定数据科学家能为 LLM 集成项目带来什么价值,引发了关于两个角色互补性的深入讨论。