Skip to content

生产环境监控

可观测性 跟踪 AI 说了什么监控 跟踪服务器是否在运行。

关键系统指标

指标警告阈值严重阈值
API 延迟 (p99)> 2s> 10s
错误率 (5xx)> 1%> 5%
内存使用率> 70%> 90%
Edge 函数持续时间> 20s> 25s (超时风险)

工具

1. Vercel Analytics

适合前端速度 (Core Web Vitals) 和 Serverless 函数日志。

2. Datadog / New Relic

企业级标准。

  • 429 Too Many Requests 设置警报 (意味着你的 OpenAI 账户被限制)。
  • 监控 504 Gateway Timeout (意味着你的 AI 耗时太长)。

警报策略

不要因为每件事都起床。

  • P1 (起床):
    • OpenAI API 返回 500 错误超过 5 分钟。
    • 网站宕机。
  • P2 (早上检查):
    • 延迟增加 20%。
    • 错误率为 0.5%。
  • P3 (仅日志):
    • 单个用户触发了速率限制。