在 Kubernetes 上扩展 TensorFlow 模型
点通信。在 Kubernetes 中, MPI Operator 可用于实现 Allreduce 式的 TensorFlow 模型同步训练。 ## TensorFlow 模型在 Kubernetes 上的可扩展服务 由于处理客户端对推理服务的请求是一项非常耗时耗力的任务,因此可扩展服务对于机器学习工作负载的生产部署至关重要。在这种情况下,部署的模型应该能够扩展到多个副本,并为多个并发的请求提供服务。 Kubeflow 支持 TensorFlow 模型的几种服务选项。这里要注意以下几点: - **TFServing** 是 TFX Serving 模块的 Kubeflow 实现。通过 TFServing,你可以创建机器学习模型 REST API,并提供许多有用的功能,包括服务交付、自动生命周期...阅读全文