parse and monitor job status on slurm system
最近想写一个对投递到集群上面的任务监控的脚本,以方便多个任务批量操作并且可以整合到一个现有的流程里面。所有的集群任务管理系统是slurm, 其中有一个步骤是获取所有任务的运行状态,但开始总是获取不到任务的状态,会直接返回----------
字符串,表示没有获取到这个任务,我尝试了以下三种写法都不能解决问题:
1 |
|
最后跟同事讨论发现,她也遇到过这个问题,这个原因是因为这个任务系统有时候,他就会卡住投不上去,然后要过段时间才能获取到, 所以循环多次获取或者在第一次获取的时候等一会。
1 | # if this is the first checking, please hold your horses, |
这就叫,欲速则不达~
- Title: parse and monitor job status on slurm system
- Author: Chentao Yang
- Created at : 2023-10-27 11:31:16
- Updated at : 2023-10-27 03:43:22
- Link: https://comery.github.io/2023/10/27/parse-and-monitor-job-status-on-slurm-system/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments