← #788

1-Bit Bonsai：首个商业可行的 1-Bit 大语言模型

文章摘要

PrismML 公司发布了 1-Bit Bonsai，声称是首个商业可行的 1-bit 大语言模型（LLM）。这一技术突破意味着模型的每个权重仅用 1 个比特存储（实际上是 1 bit 加上每 128 bits 共享一个 FP16 缩放因子），相比传统的 16-bit 全精度模型，内存占用大幅降低。

1-Bit Bonsai 的核心创新在于”原生训练”（native training）方式——不是将现有的高精度模型量化压缩到 1-bit，而是从一开始就在 1-bit 精度下训练模型。这种方法与此前微软研究院提出的 BitNet 等工作一脉相承，但 PrismML 声称在实用性和性能上取得了突破性进展，使其达到了商业部署的门槛。

在性能指标方面，PrismML 强调该模型相比全精度模型占用内存减少约 14 倍，在消费级 GPU 上可以实现极高的推理速度。他们基于 llama.cpp 的定制分支（需切换到 prism 分支构建）提供推理支持。该模型使用 GGUF 格式分发，但采用了自定义的 ggml tensor 类型（type 41），因此需要专门的构建版本才能运行。

PrismML 的愿景是让大语言模型能够在资源极为有限的设备上运行——从老旧笔记本电脑到手机，真正实现 AI 的边缘部署。如果 1-bit 模型的质量能够持续提升，它可能从根本上改变 AI 推理的经济学，让小团队和个人也能负担得起大规模模型的部署。

然而，该技术目前仍面临明显局限。模型在不确定的知识领域容易产生幻觉，复杂推理能力相比全精度模型仍有差距，且当前的工具链生态（LM Studio、Ollama 等）对其支持尚不完善，需要用户自行编译专用版本。

HN 评论精华

实际体验报告：

jjcm 分享了第一手测试经验：”1 bit 加上每 128 bits 一个 FP16 缩放因子，令人着迷的是这居然能工作得这么好。”他用 Cursor IDE 驱动测试，模型能处理工具调用但在界面生成方面表现不佳。najarvg 测试了 R 脚本地理编码、LaTeX 高斯积分和欧拉恒等式，称赞”对于这么小的模型来说知识密度惊人”。

性能基准测试：

freakynit 在 RTX 3090 上实测达到 190 tok/s（700 token 输入）和 135 tok/s（6400+ token 输入），仅使用约 4GB 显存，同时服务 5 个并行请求。wild_egg 在没有 GPU 的 2018 年笔记本上实现 AVX2 优化后达到约 12 tok/s。simonw 通过 iPhone 上的 Locally AI 应用成功运行。

方法论质疑：

fxwin 提出尖锐批评：”我非常质疑他们声称的优势”，批评他们只与全精度模型比较，而不与相同内存占用的其他量化方案比较。hatthew 同意：”与全精度模型比较有点不诚实，任何关心模型大小的人肯定已经在用至少 8-bit 量化了。”WhitneyLand 指出”说内存减少 14 倍有误导性，没人用 16-bit 做推理”。

幻觉问题严重：

simian1983 测试发现模型编造了物理学家”Charles K. Alton”发现玻色子的”事实”，并错误归因了多项粒子物理突破。qingcharles 形容模型”在不知道的事情上疯狂幻觉”。pdyc 报告模型在 strawberry 测试中失败，而”相同大小的 Qwen 3.5 0.8B 能通过且远更好用”。

部署困难：

andai 在 CPU 部署时遇到”7GB RAM 然后挂起”的问题。iJohnDoe 在 LM Studio、llama.cpp 和 Ollama 上”全部失败”，报错 tensor 类型无效。UncleOxidant 找到解决方案：需要在 llama.cpp 仓库中 git checkout prism 后再编译——这是官方文档缺失的关键步骤。

对 1-bit 可行性的根本质疑：

bilsbie 表达了基本怀疑：”我看不出这怎么可能，你丢失了太多信息。”但其他人解释说，原生训练方式在训练过程中就为 1-bit 精度保留了必要的信息，不同于事后量化的信息损失。rjh29 建议”通过思考阶段让模型双重检查答案和/或使用搜索落地”来缓解幻觉问题，暗示 1-bit 模型可能更适合作为复合系统中的快速初步推理组件。