生产环境监控
可观测性 跟踪 AI 说了什么。 监控 跟踪服务器是否在运行。
关键系统指标
| 指标 | 警告阈值 | 严重阈值 |
|---|---|---|
| API 延迟 (p99) | > 2s | > 10s |
| 错误率 (5xx) | > 1% | > 5% |
| 内存使用率 | > 70% | > 90% |
| Edge 函数持续时间 | > 20s | > 25s (超时风险) |
工具
1. Vercel Analytics
适合前端速度 (Core Web Vitals) 和 Serverless 函数日志。
2. Datadog / New Relic
企业级标准。
- 为
429 Too Many Requests设置警报 (意味着你的 OpenAI 账户被限制)。 - 监控
504 Gateway Timeout(意味着你的 AI 耗时太长)。
警报策略
不要因为每件事都起床。
- P1 (起床):
- OpenAI API 返回 500 错误超过 5 分钟。
- 网站宕机。
- P2 (早上检查):
- 延迟增加 20%。
- 错误率为 0.5%。
- P3 (仅日志):
- 单个用户触发了速率限制。