seldon-core a/b测试本地调试报503因未配置顶层traffic导致流量无法分发,须检查livenessprobe、traffic定义位置及名称匹配,并弃用已废弃的abtest crd。

为什么 seldon-core 的 A/B 测试在本地调试时总卡在 503 Service Unavailable
因为默认的 SeldonDeployment 资源没触发流量分发逻辑,底层模型服务压根没被调用。Seldon 的 A/B 不是靠代码分支控制,而是靠 Kubernetes 层面的 traffic 配置 + 代理路由生效——没配 traffic,所有请求都打到未就绪的默认路由上。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 检查
SeldonDeploymentYAML 中是否包含spec.predictors[].componentSpecs[].spec.containers[].livenessProbe,缺失会导致 Pod 卡在ContainerCreating或CrashLoopBackOff,进而整个服务不可用 -
traffic必须定义在spec顶层,不能写在某个predictor下;且至少一个predictor的name必须和traffic[].name完全一致(大小写敏感) - 本地 Minikube 环境下,
seldon-core-operator和seldon-core-analytics必须处于Running状态,用kubectl get pods -n seldon-system确认
seldon-core 的 ABTest CRD 和原生 SeldonDeployment 混用会出什么问题
会直接报错 ValidationError(SeldonDeployment.spec): unknown field "abtest" in io.seldon.seldon.core.v1.SeldonDeploymentSpec——因为 ABTest 是独立 CRD,不是 SeldonDeployment 的字段。Seldon 1.12+ 已弃用 ABTest CRD,统一收口到 SeldonDeployment 的 traffic 字段。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 删掉所有
ABTestYAML 文件,改用标准SeldonDeployment,把旧ABTest.spec.candidates拆成多个predictor,再用traffic分配权重 - 旧版
seldon-core(ABTest CRD 时,必须提前kubectl apply -f https://github.com/SeldonIO/seldon-core/releases/download/v1.9.0/seldon-core-operator.yaml安装对应 CRD,否则kubectl apply直接失败 - 新版中若仍看到
ABTest示例,基本是文档没同步更新,以 官方最新 example 为准
Python 模型封装后,A/B 测试里两个 predictor 返回结果不一致但日志没报错
大概率是两个 predictor 加载了不同版本的 Python 包,或者用了不同路径下的模型文件。Seldon 启动时不会校验 requirements.txt 是否一致,也不会自动同步 model.pickle 到每个容器。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 在每个
predictor的container.image后加:v1.2这类明确 tag,避免镜像被覆盖导致行为漂移 - 模型文件路径必须写死为绝对路径(如
/mnt/models/model.pkl),且挂载的volume名称、subPath在两个predictor中保持一致 - 加一行
print("Model loaded from:", os.path.abspath(model_path))到predict()开头,通过kubectl logs -n myns deploy/my-sd-predictor-a-00001-deployment对比实际加载路径
用 seldon-core 做 A/B 测试时,curl 请求返回 400 Bad Request 且 body 是空的
这是 Seldon 的 REST API 校验失败:输入 JSON 结构不符合 SeldonProtocol 规范。最常见的是漏了 data 外层字段,或 ndarray 类型没套 tensor。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- POST 请求体必须是
{"data": {"ndarray": [[1,2,3]]}}或{"data": {"tensor": {"values": [1,2,3], "shape": [1,3]}}},不能直接传[[1,2,3]] - 如果用
sklearn模型,确保input_type设为"ndarray"(默认值),而不是"tensor";反之用tensorflow时建议显式设"tensor" - 用
seldon-core-microservice --api-type=rest mymodule:MyModel本地启动验证,它会打印更详细的解析错误位置
真正麻烦的从来不是配置几个 traffic 权重,而是两个 predictor 容器背后 Python 环境、模型文件、协议字段三者对齐——差一个字符,流量就静默丢进黑洞。










