一个请求的生命周期在生产环境中很少是线性的。当一个分类模型的推理请求延迟从 50ms 飙升到 500ms 时,问题的根源可能散落在链路的任何一环:是 Go 编写的 API 网关处理逻辑过重?是网络延迟?还是 Python 侧的 BentoM
2023-10-27