← #794

AI 应该跑在你自己的设备上

文章摘要

作者的核心论点很直白：开发者应该优先把 AI 跑在本地，而不是默认调 OpenAI、Anthropic 的云端 API。文章开头就指出，把用户内容发到第三方服务器，本质上是引入了”数据保留（data retention）”这件事所附带的全部包袱——用户授权、数据泄漏、政府调取的合规风险都得自己背。”你本来只是想做一个 UX 上的小功能，结果搞成了一个还要你花钱的分布式系统“——这句吐槽精准地戳中了今天很多产品在做 AI 集成时的过度工程。

作者的第二个论点是硬件早就够用了。现代设备里的 Neural Engine、NPU 都已经具备运行小型模型的能力，让用户对着进度条等服务器响应，而本地神经引擎却闲着没事干，本身就是糟糕的工程。文章特别强调本地模型擅长的场景是”转换用户已有的数据（transforming user-owned data）”——总结、分类、抽取、改写，这类任务不需要海量世界知识，本地小模型完全胜任；而不是把它当成一个无所不知的知识库去问”美国总统是谁”。

文章用 Brutalist Report 这个 iOS app 作为示范案例。这个 app 用苹果新的 FoundationModels framework 在本地生成新闻摘要，不上传任何内容、不需要服务器、不需要用户注册账号。作者展示了具体的代码片段，演示如何把 LLM 输出结构化为带类型的数据（typed data）——不是返回一段 markdown 让你 regex 去解析，而是直接返回 Swift struct。这样上层产品逻辑就能直接消费，可靠性大幅提高。

文章给开发者的实际建议是：能本地就本地，云模型只在真正需要的时候用；把 AI 输出当成结构化数据来设计；用”隐私即设计（privacy by design）“取代厚厚的隐私政策文本来赢得用户信任。

HN 评论精华

williamtrask：长期乐观派——历史上的图书馆、印刷术也经历过先中心化再去中心化的过程，模型最终会”联邦化”。
Galanwe：泼冷水——消费级硬件在推理速度和上下文长度上仍然力不从心，本地大模型还远没到”日常顺滑”的程度。
mft_：给出实测——M1 Max + 64GB 跑 Qwen3.6-35B-A3B”速度足够好用”，已经能扛起交互式 coding 助手的活儿。
jjordan：当下最新的 iPhone、iPad 和 MacBook Pro 实际上已经能本地实时跑高端 LLM，硬件天花板比想象中高。
lelanthran：Qwen3.6、Gemma4 这一批开源模型证明了小模型也能做出高质量结果，本地化路线越来越现实。
krupan：质疑——这些”小模型大突破”到底是架构上的真突破还是渐进式优化？需要更冷静的评估。
lxgr：经济学角度——单个模型的训练成本仍然在 10 亿美元量级，”租 vs 买”的算账短期内还是有利于中心化供应商。
apublicfrog：本地模型的硬伤是知识截止日期——老的本地模型在 Java 版本、API、框架剧变之后就开始”过时失灵”。
irishcoffee：依赖 Anthropic / OpenAI 的产品锁定风险”疯狂大”——开源权重哪怕只是一份”保险”，也值得保留。
beloch：套用”创新-垄断-劣化（enshittification）”循环——平台都要经历这个过程，本地替代方案是关键的对冲。
HDBaseT：效率视角——大型加速卡的”每瓦吞吐“比消费级硬件高 ~100 倍，集中化在能效上仍是赢家。
2ndorderthought：地缘视角——中国厂商开源模型既能赚口碑又能借势制造业生态，是一手好棋。
majormajor：历史类比——计算曾经从大型机/瘦客户端转向个人电脑，AI 也很可能走同样的路径。
nullc：定位之争——小模型擅长”做事（doing stuff）”而不是”记事（knowing stuff）”，配合 agent 框架后能力被显著放大。
beloch（追加）：在本地硬件上跑一份开源替代品，本身就提供了”非微不足道的安心感”。