Commandes de surveillance des jobs SLURM
1. Informations sur les partitions et les nœuds
- Affiche un résumé des partitions et des nœuds disponibles, y compris leur état (disponible, occupé, etc.):
sinfo
sinfo -Nel
scontrol show partition
2. Détails des ressources de GPU
- Permet de filtrer le détail des ressources de GPU :
sinfo -Ne -p gpu --format "%.15N %.4c %.7m %G"
3. Utilisation dans le temps
- Pour regarder l’utilisation dans le temps :
sreport cluster UserUtilizationByAccount user=$USER start=2024-12-01 -t hours
4. Historique des calculs
- Pour récupérer l'historique des calculs :
sacct -u $USER --format=JobID,JobName,partition,node,alloccpus,state,elapsed,maxrss,totalcpu,start,end -S 2024-12-01
5. Informations sur un job spécifique
- Pour un job en cours ou terminé :
sacct -j $JobID
- Afficher des informations détaillées sur un job spécifique en cours d'exécution ou en attente :
scontrol show job <job-id>
6. Suivi de la file d'attente des jobs
- Pour suivre la file d'attente des jobs en cours (PD: Pending, R: Running, ...):
Tous les utilisateurs :
squeue -o "%.8i %.9P %.8j %.5u %.5a %.5t %.16V %.16S %.16M %.16L %.16e %.2D %.4C %.13q %R %f"
Ses propres jobs :
squeue -u $USER -o "%.8i %.9P %.8j %.5u %.5a %.5t %.16V %.16S %.16M %.16L %.16e %.2D %.4C %.13q %R %f"
7. Création d'un alias dans .bashrc
- Pour créer un alias dans le fichier
.bashrc
:
alias squeue='squeue -o "%.8i %.9P %.8j %.5u %.5a %.5t %.16V %.16S %.16M %.16L %.16e %.2D %.4C %.13q %R %f"'
8. Analyse de l'efficacité des calculs
- Pour récupérer les JobID, utilisez la commande suivante (adaptez la date à vos besoins) :
sacct -u $USER --format=JobID,state --starttime=2025-01-01 --noheader | grep COMPLETED | egrep -v ".0|bat|ext" | awk '{print $1}' > job_$USER.out
- Pour analyser l'efficacité des calculs, une fois la liste des jobs récupérée dans
job_$USER.out
, exécutez la commande suivante :
for i in $(cat job_$USER.out); do seff $i; done | egrep "Job ID|CPU Efficiency|Memory Efficiency" > seff_$USER.out
Note : $USER est predefini, il correspond à votre identifiant eXplor.
9. Surveillez l’utilisation du cluster et le statut des nœuds
- Pour surveiller le cluster, utilisez les commandes suivantes :
sinfo
,sinfo -Nel
,qstat -q
. - Afin d’adapter les ressources à allouer, utilisez des outils comme
top
,htop
ounvidia-smi
. Pour utiliser ces commandes, d'abord connectez-vous au nœud où votre calcul est en cours en utilisant la commande suivante :
ssh <identifiant du nœud>
Rappel : Vous avez accès au nœud uniquement lorsque vous avez un calcul en cours.