每日 AI 学习笔记|Day 23:可观测性与链路追踪(OpenTelemetry + Trace)
· 阅读需 14 分钟
面向:资深测试开发(Golang Ginkgo / Python Playwright / K8s / API Testing) 关键词:OpenTelemetry / Trace / Span / Context Propagation / OTLP / Jaeger / Tempo / E2E 诊断
今天这篇笔记聚焦一个非常典型、也最容易在 AI Agent 项目里被低估的问题:系统明明“偶发变慢”或“偶发失败”,但没有足够的链路证据告诉你到底慢在哪、错在哪、谁先错了。
如果没有可观测性,很多线上问题最后都会退化成“翻日志 + 猜测 + 重跑”;而一旦把 trace_id、关键阶段 span、日志字段和 SLO 指标串起来,测试开发就能把“难复现的偶发问题”沉淀成可回放、可定位、可门禁的工程能力。
