在 Kubernetes 上扩展 TensorFlow 模型
-operator 管理的异步策略的分布式训练作业的例子。  TFJob 并不是用 Kubeflow 实现 TensorFlow 模型分布式训练的唯一方法。[MPI Operator](https://github.com/kubeflow/mpi-operator)提供了另一种解决方案。在后台,MPI Operator 使用[消息传递接口](https://www.open-mpi.org/)(Message Passing Interface,MPI),它可以在异构网络环境中,在 worker 之间通过不同的通信层进行跨节...阅读全文