💡 一句话总结:Agent 进生产后是个黑盒——它每步在想什么、调了什么工具、为什么出错、烧了多少钱,你看不见。本文横评 Langfuse、LangSmith、Phoenix、AgentOps、Helicone、Braintrust 六款可观测性平台,从追踪、评测、自托管到 OpenTelemetry 支持逐一对比,最后给按场景的选型建议。
一、为什么 Agent 时代必须上可观测性
传统应用出问题,你看日志、看堆栈,基本能定位。但 agent 不一样——它的「行为」藏在一长串 LLM 推理和工具调用里。用户抱怨「agent 答错了」,你面对的可能是:
- 它从十几个工具里选错了那个;
- 它选对了工具但参数填错了;
- 某一步的推理悄悄跑偏,后面全错;
- 它其实答对了,但绕了一大圈,烧了十倍的 token。
没有可观测性,这些你一个都看不见。一句话:在 agent 时代,「看不见推理过程」等于「没法debug、没法优化、没法控成本」。可观测性平台干的就是点亮这个黑盒——把每一步的 prompt、response、工具调用、token 成本、耗时和质量评分,完整地记录、可视化、可回溯。
二、先理解底层标准:OpenTelemetry GenAI
选工具前,先认识一个正在统一这个领域的标准:OpenTelemetry GenAI 语义约定。
过去各家平台的埋点格式各搞各的,接了 A 家就很难换 B 家。OpenTelemetry(云原生世界的可观测性事实标准)推出了针对 GenAI 的语义约定,统一规定「一次 LLM 调用、一次 agent 步骤、一次工具调用」该记录哪些字段。意义重大:
你只要按 OTel 标准埋点一次,数据就能发到任何支持 OTel 的后端,甚至同时发给多个——彻底避免厂商锁定。
所以下文每款工具,「是否原生支持 OTel」是个重要的加分项。它决定了你未来换工具、或把 AI 追踪接进已有 APM(Datadog、Grafana)的成本。
三、六款工具逐个看
Langfuse —— 开源自托管的全能选手 定位在 prompt 层的深度可观测:完整的 trace、每步 prompt/response、token 成本、用户会话分析,还内建了评分器(scorers)做质量评测。最大优势是开源 + 可完整自托管,数据留在自己手里,一个 docker compose 就能起。OTel 兼容。适合想要数据自主、又要功能全面的团队。
LangSmith —— LangChain 生态的原生选择 由 LangChain 团队出品,对 LangChain/LangGraph 应用是零摩擦集成——不用额外埋点就能拿到完整的推理链路:prompt、上下文、工具逻辑、错误。追踪的细粒度是它的强项,调试 agent 决策路径非常顺手。是 SaaS 优先(有企业自托管)。如果你的栈深度绑定 LangChain,它几乎是默认选项。
Arize Phoenix —— 评测与漂移监控 重心不在 prompt 迭代,而在长期的模型行为监控:行为漂移检测、偏差检测、LLM-as-a-judge 打分。它更像「模型质量回归的守门员」,盯的是「上线后模型表现有没有悄悄退化」。开源、可自托管、原生 OTel。适合已有稳定 agent、关心长期质量稳定性的团队。
AgentOps —— 生产环境的会话回放 强项是生产调试:会话回放(session replay)让你像看录像一样回放 agent 的整次执行,配上成本追踪和线上行为可见性。原生支持 OTel。它更偏「agent 已经在线上跑、出了问题要复盘」的运维场景。
Helicone —— 网关式的用户旅程视角 特色是网关/代理模式——把 LLM 请求经它转发,几乎零侵入就能拿到日志、成本、用户旅程和历史趋势分析。开源、可自托管。适合想用最小改动快速接入可观测性、关注会话级用户行为的团队。
Braintrust —— 评测优先 核心不是看 trace,而是系统化评测:用数据集 + 期望输出来评估 prompt、模型的表现,做详尽的错误分析,强调「上线前先评好」。是 eval-first 的理念。适合把「质量评测」当成 agent 开发核心环节、需要在迭代中量化对比的团队。
四、横向对比
| 工具 | 开源/自托管 | 核心强项 | 内建评测 | OpenTelemetry | 部署模式 |
|---|---|---|---|---|---|
| Langfuse | 开源,可自托管 | prompt 层深度追踪 | 内建评分器 | 兼容 | 自托管/云 |
| LangSmith | SaaS 优先(企业自托管) | LangChain 原生推理链 | 有限 | 经回调 | 云 |
| Arize Phoenix | 开源,可自托管 | 漂移检测 / LLM-as-judge | 强 | 原生 | 自托管/云 |
| AgentOps | SDK 开源,SaaS | 生产会话回放 | 生命周期指标 | 原生 | 云 |
| Helicone | 开源,可自托管 | 网关式低侵入接入 | 基础 | 支持 | 自托管/云 |
| Braintrust | SaaS 优先 | 数据集评测 | 全面 | 标准 | 云 |
性能开销方面,某项基准测试给出的参考值:LangSmith 约 0%、Laminar 约 5%、AgentOps 约 12%、Langfuse 约 15%。需要强调:这只是单一基准、特定配置下的结果,实际开销高度依赖你是同步还是异步上报、是否采样、是否记录完整 payload——生产里用异步 + 采样通常能把开销压到可忽略。
💡 提示:所有这些平台都提供免费档(按 trace / observation / token 设限)。先用免费档把真实流量灌进去跑一周,比看任何评测都更能判断它合不合你的用法。
五、怎么选:按场景给建议
没有「最好的」,只有「最合适的」。按你的核心诉求对号入座:
- 个人 / 小团队、预算敏感 → Langfuse 自托管。开源零订阅,功能全,docker 一拉就能用。
- 深度绑定 LangChain / LangGraph → LangSmith。零摩擦集成,省掉大量埋点代码。
- 核心诉求是质量评测、迭代要量化对比 → Braintrust 或 Phoenix。eval-first,把质量做成可度量。
- 关心上线后模型会不会悄悄退化 → Arize Phoenix。漂移 + LLM-as-judge 是它的主场。
- agent 已在生产、要复盘线上问题 → AgentOps。会话回放是杀手锏。
- 想用最小改动快速接入 → Helicone。网关模式几乎零侵入。
- 要避免厂商锁定、接进已有 APM → 优先选原生支持 OTel 的(Phoenix、AgentOps、Langfuse),按 OTel 标准埋点一次走天下。
结语
2026 年,agent 能不能进生产,可观测性是道绕不过的关。这六款工具其实分成两个流派:一派以追踪调试为核心(Langfuse、LangSmith、AgentOps、Helicone),帮你看清 agent 每一步在干什么;一派以质量评测为核心(Braintrust、Phoenix),帮你量化 agent 答得好不好。
成熟的团队往往两样都要——一个看链路、一个评质量,再用 OpenTelemetry 把它们串进统一的可观测性体系。先从一个开源、能自托管的(比如 Langfuse)起步,把真实流量跑起来,你会立刻明白:原来 agent 一直在你看不见的地方,烧着钱、走着弯路。