LLM 可观测性和传统 APM（如 Datadog）有什么区别，不能直接用现成的吗？

传统 APM 关心的是延迟、错误率、吞吐这些系统指标，它能告诉你「这个请求慢了」，但答不出「agent 为什么选了错的工具」「这一步的推理哪里跑偏了」「这次回答的质量好不好」。LLM/Agent 可观测性专门捕捉这些 AI 特有的东西：完整的推理链（trace）、每步的 prompt 和 response、工具调用的输入输出、token 成本，以及最关键的——输出质量的评测。现在的趋势是两者融合：Datadog 等也加了 LLM 监控模块，而 OpenTelemetry 推出了 GenAI 语义约定，让 AI 追踪能接进你已有的 APM 体系。但要做 prompt 迭代和 agent 调试，专门的 LLM 可观测性工具仍然更顺手。

开源自托管和 SaaS 云服务，到底怎么选？

看三件事：数据敏感度、团队运维能力、规模。如果你的 prompt 和数据涉及合规、不能出域，优先开源自托管——Langfuse、Phoenix、Helicone 都能完整自部署，数据留在自己的基础设施里。如果团队不想运维、想快速上线，SaaS 更省心，LangSmith、Braintrust、AgentOps 都是 SaaS 优先。规模上，自托管在高流量下成本更可控（不按 trace 计费），但要自己扛存储和扩容。常见路径是先用 SaaS 免费档验证，数据量或合规要求上来后再迁到自托管。

OpenTelemetry GenAI 标准为什么重要，对选型有什么影响？

它的意义是「让 AI 追踪不被某个厂商锁死」。过去各家可观测性平台的埋点格式各不相同，你接了 A 家就很难换到 B 家。OpenTelemetry 的 GenAI 语义约定统一了「一次 LLM 调用 / 一次 agent 步骤 / 一次工具调用」该记录哪些字段，于是你只要按 OTel 标准埋点一次，就能把数据发到任何支持 OTel 的后端，甚至同时发给多个。选型时优先考虑原生支持 OTel 的工具（Phoenix、AgentOps、Langfuse 等），能最大程度避免厂商锁定，也方便把 AI 追踪接进你已有的 APM。

性能开销那组数字（0% 到 15%）该怎么理解？会拖慢我的 agent 吗？

先说明这组数字来自某一项基准测试，不同负载和配置下会有差异，别当成绝对真理。理解要点是：开销主要来自追踪数据的采集和上报。同步上报、记录完整 payload 会更重；异步批量上报、采样、只记关键字段会轻很多。所谓 15% 多发生在「全量同步追踪」的极端配置下，生产中用异步 + 采样基本能压到可忽略。对绝大多数应用，agent 的瓶颈是 LLM 推理本身（几百毫秒到几秒），可观测性那点开销相比之下微不足道。真要在意，开异步上报和采样即可。

我是个人开发者 / 小团队，预算有限，先上哪个？

推荐从 Langfuse 自托管开始。它开源、可以一个 docker compose 拉起来跑在自己机器上，零订阅成本，prompt 层的追踪和 token 成本统计对调试 agent 足够用，社区也活跃。如果你重度用 LangChain/LangGraph，那 LangSmith 的开箱集成会让你少写很多埋点代码，免费档对小流量够用。如果你的核心诉求是「系统地评测 prompt 和模型质量」而不只是看 trace，那 Braintrust 或 Phoenix 的评测能力更对口。一句话：调试看链路选 Langfuse/LangSmith，做质量评测选 Braintrust/Phoenix。

工具速评：6 款 AI Agent 可观测性平台横评（2026 年 6 月）

💡 一句话总结：Agent 进生产后是个黑盒——它每步在想什么、调了什么工具、为什么出错、烧了多少钱，你看不见。本文横评 Langfuse、LangSmith、Phoenix、AgentOps、Helicone、Braintrust 六款可观测性平台，从追踪、评测、自托管到 OpenTelemetry 支持逐一对比，最后给按场景的选型建议。

一、为什么 Agent 时代必须上可观测性

传统应用出问题，你看日志、看堆栈，基本能定位。但 agent 不一样——它的「行为」藏在一长串 LLM 推理和工具调用里。用户抱怨「agent 答错了」，你面对的可能是：

它从十几个工具里选错了那个；
它选对了工具但参数填错了；
某一步的推理悄悄跑偏，后面全错；
它其实答对了，但绕了一大圈，烧了十倍的 token。

没有可观测性，这些你一个都看不见。一句话：在 agent 时代，「看不见推理过程」等于「没法debug、没法优化、没法控成本」。可观测性平台干的就是点亮这个黑盒——把每一步的 prompt、response、工具调用、token 成本、耗时和质量评分，完整地记录、可视化、可回溯。

二、先理解底层标准：OpenTelemetry GenAI

选工具前，先认识一个正在统一这个领域的标准：OpenTelemetry GenAI 语义约定。

过去各家平台的埋点格式各搞各的，接了 A 家就很难换 B 家。OpenTelemetry（云原生世界的可观测性事实标准）推出了针对 GenAI 的语义约定，统一规定「一次 LLM 调用、一次 agent 步骤、一次工具调用」该记录哪些字段。意义重大：

你只要按 OTel 标准埋点一次，数据就能发到任何支持 OTel 的后端，甚至同时发给多个——彻底避免厂商锁定。

所以下文每款工具，「是否原生支持 OTel」是个重要的加分项。它决定了你未来换工具、或把 AI 追踪接进已有 APM（Datadog、Grafana）的成本。

三、六款工具逐个看

Langfuse —— 开源自托管的全能选手 定位在 prompt 层的深度可观测：完整的 trace、每步 prompt/response、token 成本、用户会话分析，还内建了评分器（scorers）做质量评测。最大优势是开源 + 可完整自托管，数据留在自己手里，一个 docker compose 就能起。OTel 兼容。适合想要数据自主、又要功能全面的团队。

LangSmith —— LangChain 生态的原生选择 由 LangChain 团队出品，对 LangChain/LangGraph 应用是零摩擦集成——不用额外埋点就能拿到完整的推理链路：prompt、上下文、工具逻辑、错误。追踪的细粒度是它的强项，调试 agent 决策路径非常顺手。是 SaaS 优先（有企业自托管）。如果你的栈深度绑定 LangChain，它几乎是默认选项。

Arize Phoenix —— 评测与漂移监控 重心不在 prompt 迭代，而在长期的模型行为监控：行为漂移检测、偏差检测、LLM-as-a-judge 打分。它更像「模型质量回归的守门员」，盯的是「上线后模型表现有没有悄悄退化」。开源、可自托管、原生 OTel。适合已有稳定 agent、关心长期质量稳定性的团队。

AgentOps —— 生产环境的会话回放 强项是生产调试：会话回放（session replay）让你像看录像一样回放 agent 的整次执行，配上成本追踪和线上行为可见性。原生支持 OTel。它更偏「agent 已经在线上跑、出了问题要复盘」的运维场景。

Helicone —— 网关式的用户旅程视角 特色是网关/代理模式——把 LLM 请求经它转发，几乎零侵入就能拿到日志、成本、用户旅程和历史趋势分析。开源、可自托管。适合想用最小改动快速接入可观测性、关注会话级用户行为的团队。

Braintrust —— 评测优先 核心不是看 trace，而是系统化评测：用数据集 + 期望输出来评估 prompt、模型的表现，做详尽的错误分析，强调「上线前先评好」。是 eval-first 的理念。适合把「质量评测」当成 agent 开发核心环节、需要在迭代中量化对比的团队。

四、横向对比

工具	开源/自托管	核心强项	内建评测	OpenTelemetry	部署模式
Langfuse	开源，可自托管	prompt 层深度追踪	内建评分器	兼容	自托管/云
LangSmith	SaaS 优先（企业自托管）	LangChain 原生推理链	有限	经回调	云
Arize Phoenix	开源，可自托管	漂移检测 / LLM-as-judge	强	原生	自托管/云
AgentOps	SDK 开源，SaaS	生产会话回放	生命周期指标	原生	云
Helicone	开源，可自托管	网关式低侵入接入	基础	支持	自托管/云
Braintrust	SaaS 优先	数据集评测	全面	标准	云

性能开销方面，某项基准测试给出的参考值：LangSmith 约 0%、Laminar 约 5%、AgentOps 约 12%、Langfuse 约 15%。需要强调：这只是单一基准、特定配置下的结果，实际开销高度依赖你是同步还是异步上报、是否采样、是否记录完整 payload——生产里用异步 + 采样通常能把开销压到可忽略。

💡 提示：所有这些平台都提供免费档（按 trace / observation / token 设限）。先用免费档把真实流量灌进去跑一周，比看任何评测都更能判断它合不合你的用法。

五、怎么选：按场景给建议

没有「最好的」，只有「最合适的」。按你的核心诉求对号入座：

个人 / 小团队、预算敏感 → Langfuse 自托管。开源零订阅，功能全，docker 一拉就能用。
深度绑定 LangChain / LangGraph → LangSmith。零摩擦集成，省掉大量埋点代码。
核心诉求是质量评测、迭代要量化对比 → Braintrust 或 Phoenix。eval-first，把质量做成可度量。
关心上线后模型会不会悄悄退化 → Arize Phoenix。漂移 + LLM-as-judge 是它的主场。
agent 已在生产、要复盘线上问题 → AgentOps。会话回放是杀手锏。
想用最小改动快速接入 → Helicone。网关模式几乎零侵入。
要避免厂商锁定、接进已有 APM → 优先选原生支持 OTel 的（Phoenix、AgentOps、Langfuse），按 OTel 标准埋点一次走天下。

结语

2026 年，agent 能不能进生产，可观测性是道绕不过的关。这六款工具其实分成两个流派：一派以追踪调试为核心（Langfuse、LangSmith、AgentOps、Helicone），帮你看清 agent 每一步在干什么；一派以质量评测为核心（Braintrust、Phoenix），帮你量化 agent 答得好不好。

成熟的团队往往两样都要——一个看链路、一个评质量，再用 OpenTelemetry 把它们串进统一的可观测性体系。先从一个开源、能自托管的（比如 Langfuse）起步，把真实流量跑起来，你会立刻明白：原来 agent 一直在你看不见的地方，烧着钱、走着弯路。