Airbyte Agents:跨多数据源给 Agent 提供上下文

查看原文 HN 讨论

文章摘要

Airbyte 联合创始人兼 CEO Michel Tricot 在 HN 上 Show 出 Airbyte Agents——他们把多年做 ETL 连接器(700+ 数据源)的积累,转向给 AI Agent 用的”上下文层”。Tricot 的核心论点:当前 agent 失败的根因不是推理弱,而是在能开始推理之前,根本不知道哪里有什么数据。”agent 通常需要先发现什么是相关的,才能开始推理。”

Airbyte Agents 不是又一个 MCP 套壳的薄包装,而是一个为 agentic search 优化的数据索引:Airbyte 现成的复制连接器把 700+ 数据源的内容预先抽进一个 Context Store,agent 在调用上游系统前可以先在 Context Store 里做结构化搜索;当确实需要写入或拿实时数据时,再回退到原系统直接读写。文章里的真实案例:让 agent 回答”哪些客户处于流失风险”——直接走原始 API 需要 47 步且大多失败;走 Airbyte Agents 的预索引后步骤大幅压缩。Token 成本对比也很直接:相比社区版 MCP,Zendesk 节省最多 90%,Gong 节省最多 80%,Linear 节省最多 75%;Salesforce 因为原生 SOQL 已经够好,只省 16%。

技术架构上,Airbyte Agents 提供 REST API、SDK 和 MCP Server 三套接口;动作动词不仅有 ETL 的”复制”,还包括 get/set/list/update/upload 等。凭据管理走单点 OAuth,避免给每个 agent 配几十组密钥。后端把 filter 谓词下推为 SQL 在云端执行;目前对外暴露 JSON 谓词而非 raw SQL,作者解释是为了避免被锁死在某个 SQL 方言上。社区里关于这个架构的讨论非常激烈:核心分歧是”预索引 vs. 实时查询“以及”该不该让 agent 直接写 SQL“。

HN 评论精华