Tools

工具速评:6 款 AI Agent 可观测性平台横评(2026 年 6 月)

6 min read ·

💡 一句话总结:Agent 进生产后是个黑盒——它每步在想什么、调了什么工具、为什么出错、烧了多少钱,你看不见。本文横评 Langfuse、LangSmith、Phoenix、AgentOps、Helicone、Braintrust 六款可观测性平台,从追踪、评测、自托管到 OpenTelemetry 支持逐一对比,最后给按场景的选型建议。

一、为什么 Agent 时代必须上可观测性

传统应用出问题,你看日志、看堆栈,基本能定位。但 agent 不一样——它的「行为」藏在一长串 LLM 推理和工具调用里。用户抱怨「agent 答错了」,你面对的可能是:

没有可观测性,这些你一个都看不见。一句话:在 agent 时代,「看不见推理过程」等于「没法debug、没法优化、没法控成本」。可观测性平台干的就是点亮这个黑盒——把每一步的 prompt、response、工具调用、token 成本、耗时和质量评分,完整地记录、可视化、可回溯。

二、先理解底层标准:OpenTelemetry GenAI

选工具前,先认识一个正在统一这个领域的标准:OpenTelemetry GenAI 语义约定

过去各家平台的埋点格式各搞各的,接了 A 家就很难换 B 家。OpenTelemetry(云原生世界的可观测性事实标准)推出了针对 GenAI 的语义约定,统一规定「一次 LLM 调用、一次 agent 步骤、一次工具调用」该记录哪些字段。意义重大:

你只要按 OTel 标准埋点一次,数据就能发到任何支持 OTel 的后端,甚至同时发给多个——彻底避免厂商锁定。

所以下文每款工具,「是否原生支持 OTel」是个重要的加分项。它决定了你未来换工具、或把 AI 追踪接进已有 APM(Datadog、Grafana)的成本。

三、六款工具逐个看

Langfuse —— 开源自托管的全能选手 定位在 prompt 层的深度可观测:完整的 trace、每步 prompt/response、token 成本、用户会话分析,还内建了评分器(scorers)做质量评测。最大优势是开源 + 可完整自托管,数据留在自己手里,一个 docker compose 就能起。OTel 兼容。适合想要数据自主、又要功能全面的团队。

LangSmith —— LangChain 生态的原生选择 由 LangChain 团队出品,对 LangChain/LangGraph 应用是零摩擦集成——不用额外埋点就能拿到完整的推理链路:prompt、上下文、工具逻辑、错误。追踪的细粒度是它的强项,调试 agent 决策路径非常顺手。是 SaaS 优先(有企业自托管)。如果你的栈深度绑定 LangChain,它几乎是默认选项。

Arize Phoenix —— 评测与漂移监控 重心不在 prompt 迭代,而在长期的模型行为监控:行为漂移检测、偏差检测、LLM-as-a-judge 打分。它更像「模型质量回归的守门员」,盯的是「上线后模型表现有没有悄悄退化」。开源、可自托管、原生 OTel。适合已有稳定 agent、关心长期质量稳定性的团队。

AgentOps —— 生产环境的会话回放 强项是生产调试:会话回放(session replay)让你像看录像一样回放 agent 的整次执行,配上成本追踪和线上行为可见性。原生支持 OTel。它更偏「agent 已经在线上跑、出了问题要复盘」的运维场景。

Helicone —— 网关式的用户旅程视角 特色是网关/代理模式——把 LLM 请求经它转发,几乎零侵入就能拿到日志、成本、用户旅程和历史趋势分析。开源、可自托管。适合想用最小改动快速接入可观测性、关注会话级用户行为的团队。

Braintrust —— 评测优先 核心不是看 trace,而是系统化评测:用数据集 + 期望输出来评估 prompt、模型的表现,做详尽的错误分析,强调「上线前先评好」。是 eval-first 的理念。适合把「质量评测」当成 agent 开发核心环节、需要在迭代中量化对比的团队。

四、横向对比

工具开源/自托管核心强项内建评测OpenTelemetry部署模式
Langfuse开源,可自托管prompt 层深度追踪内建评分器兼容自托管/云
LangSmithSaaS 优先(企业自托管)LangChain 原生推理链有限经回调
Arize Phoenix开源,可自托管漂移检测 / LLM-as-judge原生自托管/云
AgentOpsSDK 开源,SaaS生产会话回放生命周期指标原生
Helicone开源,可自托管网关式低侵入接入基础支持自托管/云
BraintrustSaaS 优先数据集评测全面标准

性能开销方面,某项基准测试给出的参考值:LangSmith 约 0%、Laminar 约 5%、AgentOps 约 12%、Langfuse 约 15%。需要强调:这只是单一基准、特定配置下的结果,实际开销高度依赖你是同步还是异步上报、是否采样、是否记录完整 payload——生产里用异步 + 采样通常能把开销压到可忽略。

💡 提示:所有这些平台都提供免费档(按 trace / observation / token 设限)。先用免费档把真实流量灌进去跑一周,比看任何评测都更能判断它合不合你的用法。

五、怎么选:按场景给建议

没有「最好的」,只有「最合适的」。按你的核心诉求对号入座:

结语

2026 年,agent 能不能进生产,可观测性是道绕不过的关。这六款工具其实分成两个流派:一派以追踪调试为核心(Langfuse、LangSmith、AgentOps、Helicone),帮你看清 agent 每一步在干什么;一派以质量评测为核心(Braintrust、Phoenix),帮你量化 agent 答得好不好。

成熟的团队往往两样都要——一个看链路、一个评质量,再用 OpenTelemetry 把它们串进统一的可观测性体系。先从一个开源、能自托管的(比如 Langfuse)起步,把真实流量跑起来,你会立刻明白:原来 agent 一直在你看不见的地方,烧着钱、走着弯路。

Frequently asked questions

LLM 可观测性和传统 APM(如 Datadog)有什么区别,不能直接用现成的吗?
传统 APM 关心的是延迟、错误率、吞吐这些系统指标,它能告诉你「这个请求慢了」,但答不出「agent 为什么选了错的工具」「这一步的推理哪里跑偏了」「这次回答的质量好不好」。LLM/Agent 可观测性专门捕捉这些 AI 特有的东西:完整的推理链(trace)、每步的 prompt 和 response、工具调用的输入输出、token 成本,以及最关键的——输出质量的评测。现在的趋势是两者融合:Datadog 等也加了 LLM 监控模块,而 OpenTelemetry 推出了 GenAI 语义约定,让 AI 追踪能接进你已有的 APM 体系。但要做 prompt 迭代和 agent 调试,专门的 LLM 可观测性工具仍然更顺手。
开源自托管和 SaaS 云服务,到底怎么选?
看三件事:数据敏感度、团队运维能力、规模。如果你的 prompt 和数据涉及合规、不能出域,优先开源自托管——Langfuse、Phoenix、Helicone 都能完整自部署,数据留在自己的基础设施里。如果团队不想运维、想快速上线,SaaS 更省心,LangSmith、Braintrust、AgentOps 都是 SaaS 优先。规模上,自托管在高流量下成本更可控(不按 trace 计费),但要自己扛存储和扩容。常见路径是先用 SaaS 免费档验证,数据量或合规要求上来后再迁到自托管。
OpenTelemetry GenAI 标准为什么重要,对选型有什么影响?
它的意义是「让 AI 追踪不被某个厂商锁死」。过去各家可观测性平台的埋点格式各不相同,你接了 A 家就很难换到 B 家。OpenTelemetry 的 GenAI 语义约定统一了「一次 LLM 调用 / 一次 agent 步骤 / 一次工具调用」该记录哪些字段,于是你只要按 OTel 标准埋点一次,就能把数据发到任何支持 OTel 的后端,甚至同时发给多个。选型时优先考虑原生支持 OTel 的工具(Phoenix、AgentOps、Langfuse 等),能最大程度避免厂商锁定,也方便把 AI 追踪接进你已有的 APM。
性能开销那组数字(0% 到 15%)该怎么理解?会拖慢我的 agent 吗?
先说明这组数字来自某一项基准测试,不同负载和配置下会有差异,别当成绝对真理。理解要点是:开销主要来自追踪数据的采集和上报。同步上报、记录完整 payload 会更重;异步批量上报、采样、只记关键字段会轻很多。所谓 15% 多发生在「全量同步追踪」的极端配置下,生产中用异步 + 采样基本能压到可忽略。对绝大多数应用,agent 的瓶颈是 LLM 推理本身(几百毫秒到几秒),可观测性那点开销相比之下微不足道。真要在意,开异步上报和采样即可。
我是个人开发者 / 小团队,预算有限,先上哪个?
推荐从 Langfuse 自托管开始。它开源、可以一个 docker compose 拉起来跑在自己机器上,零订阅成本,prompt 层的追踪和 token 成本统计对调试 agent 足够用,社区也活跃。如果你重度用 LangChain/LangGraph,那 LangSmith 的开箱集成会让你少写很多埋点代码,免费档对小流量够用。如果你的核心诉求是「系统地评测 prompt 和模型质量」而不只是看 trace,那 Braintrust 或 Phoenix 的评测能力更对口。一句话:调试看链路选 Langfuse/LangSmith,做质量评测选 Braintrust/Phoenix。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.