AI 应该跑在你自己的设备上

查看原文 HN 讨论

文章摘要

作者的核心论点很直白:开发者应该优先把 AI 跑在本地,而不是默认调 OpenAI、Anthropic 的云端 API。文章开头就指出,把用户内容发到第三方服务器,本质上是引入了”数据保留(data retention)”这件事所附带的全部包袱——用户授权、数据泄漏、政府调取的合规风险都得自己背。”你本来只是想做一个 UX 上的小功能,结果搞成了一个还要你花钱的分布式系统“——这句吐槽精准地戳中了今天很多产品在做 AI 集成时的过度工程。

作者的第二个论点是硬件早就够用了。现代设备里的 Neural Engine、NPU 都已经具备运行小型模型的能力,让用户对着进度条等服务器响应,而本地神经引擎却闲着没事干,本身就是糟糕的工程。文章特别强调本地模型擅长的场景是”转换用户已有的数据(transforming user-owned data)”——总结、分类、抽取、改写,这类任务不需要海量世界知识,本地小模型完全胜任;而不是把它当成一个无所不知的知识库去问”美国总统是谁”。

文章用 Brutalist Report 这个 iOS app 作为示范案例。这个 app 用苹果新的 FoundationModels framework 在本地生成新闻摘要,不上传任何内容、不需要服务器、不需要用户注册账号。作者展示了具体的代码片段,演示如何把 LLM 输出结构化为带类型的数据(typed data)——不是返回一段 markdown 让你 regex 去解析,而是直接返回 Swift struct。这样上层产品逻辑就能直接消费,可靠性大幅提高。

文章给开发者的实际建议是:能本地就本地,云模型只在真正需要的时候用;把 AI 输出当成结构化数据来设计;用”隐私即设计(privacy by design)“取代厚厚的隐私政策文本来赢得用户信任。

HN 评论精华

  1. williamtrask:长期乐观派——历史上的图书馆、印刷术也经历过先中心化再去中心化的过程,模型最终会”联邦化”。

  2. Galanwe:泼冷水——消费级硬件在推理速度和上下文长度上仍然力不从心,本地大模型还远没到”日常顺滑”的程度。

  3. mft_:给出实测——M1 Max + 64GB 跑 Qwen3.6-35B-A3B”速度足够好用”,已经能扛起交互式 coding 助手的活儿。

  4. jjordan:当下最新的 iPhone、iPad 和 MacBook Pro 实际上已经能本地实时跑高端 LLM,硬件天花板比想象中高。

  5. lelanthran:Qwen3.6、Gemma4 这一批开源模型证明了小模型也能做出高质量结果,本地化路线越来越现实。

  6. krupan:质疑——这些”小模型大突破”到底是架构上的真突破还是渐进式优化?需要更冷静的评估。

  7. lxgr:经济学角度——单个模型的训练成本仍然在 10 亿美元量级,”租 vs 买”的算账短期内还是有利于中心化供应商。

  8. apublicfrog:本地模型的硬伤是知识截止日期——老的本地模型在 Java 版本、API、框架剧变之后就开始”过时失灵”。

  9. irishcoffee:依赖 Anthropic / OpenAI 的产品锁定风险”疯狂大”——开源权重哪怕只是一份”保险”,也值得保留。

  10. beloch:套用”创新-垄断-劣化(enshittification)”循环——平台都要经历这个过程,本地替代方案是关键的对冲。

  11. HDBaseT:效率视角——大型加速卡的”每瓦吞吐“比消费级硬件高 ~100 倍,集中化在能效上仍是赢家。

  12. 2ndorderthought:地缘视角——中国厂商开源模型既能赚口碑又能借势制造业生态,是一手好棋。

  13. majormajor:历史类比——计算曾经从大型机/瘦客户端转向个人电脑,AI 也很可能走同样的路径。

  14. nullc:定位之争——小模型擅长”做事(doing stuff)”而不是”记事(knowing stuff)”,配合 agent 框架后能力被显著放大。

  15. beloch(追加):在本地硬件上跑一份开源替代品,本身就提供了”非微不足道的安心感”。