常见问题¶
1. 说明¶
2. 日志说明¶
一般来说,排查问题,需要如下几个日志:
v1.7+¶
-
${FATE_PROJECT_BASE}/fateflow/logs/$job_id/fate_flow_schedule.log
,这个是某个任务的内部调度日志 -
${FATE_PROJECT_BASE}/fateflow/logs/$job_id/*
这些是某个任务的所有执行日志 -
${FATE_PROJECT_BASE}/fateflow/logs/fate_flow/fate_flow_stat.log
,这个是与任务无关的一些日志 -
${FATE_PROJECT_BASE}/fateflow/logs/fate_flow/fate_flow_schedule.log
,这个是所有任务的整体调度日志 -
${FATE_PROJECT_BASE}/fateflow/logs/fate_flow/fate_flow_detect.log
,这个是所有任务的整体异常探测日志
v1.7-¶
-
${FATE_PROJECT_BASE}/logs/$job_id/fate_flow_schedule.log
,这个是某个任务的内部调度日志 -
${FATE_PROJECT_BASE}/logs/$job_id/*
这些是某个任务的所有执行日志 -
${FATE_PROJECT_BASE}/logs/fate_flow/fate_flow_stat.log
,这个是与任务无关的一些日志 -
${FATE_PROJECT_BASE}/logs/fate_flow/fate_flow_schedule.log
,这个是所有任务的整体调度日志 -
${FATE_PROJECT_BASE}/logs/fate_flow/fate_flow_detect.log
,这个是所有任务的整体异常探测日志
3. 离线部分¶
upload失败¶
- 检查eggroll相关服务是否异常;
提交任务(submit_job)卡住¶
- 检查双方rollsite服务是否被kill了
提交任务(submit_job)返回grpc异常¶
- 提交任务的链路: guest fate_flow -> guest rollsite -> host rollsite -> host fate_flow
- 检查上面的链路中的每个服务是否挂了,必须保证每个节点都正常运行;
- 检查路由表的配置是否正确;
dataio组件异常: not enough values to unpack (expected 2, got 1)¶
- 数据的分隔符和配置中的分割符不一致
任务运行时抛出异常:"Count of data_instance is 0"¶
- 任务中有交集组件并且交集匹配率为0,需要检查guest和host的输出数据id是否能匹配上;
4. 在线部分¶
推模型(load)retcode返回100,可能的原因有哪些?¶
-
没有部署fate-servings
-
flow没有获取到fate-servings的地址
-
flow读取fate-servings的地址的优先级排序:
-
从zk读取
-
没有打开zk的话,会从fate的服务配置文件读取,配置路径在
-
1.5+:
${FATE_PROJECT_BASE}/conf/service_conf.yaml
-
1.5-:
${FATE_PROJECT_BASE}/arch/conf/server_conf.json
-
推模型(load)retcode返回123,可能原因有哪些?¶
- 模型信息有误;
- 此错误码是fate-servings没有找到模型而抛出的;
绑定模型(bind)操作时提示"no service id"?¶
- 在bind配置中自定义service_id
servings的配置在哪?怎么配?¶
- 1.5+ 配置路径:
${FATE_PROJECT_BASE}/conf/service_conf.yaml
servings:
hosts:
- 127.0.0.1:8000
- 1.5- 配置路径:
${FATE_PROJECT_BASE}/arch/conf/server_conf.json
{
"servers": {
"servings": ["127.0.0.1:8000"]
}
}