Commandes de surveillance des jobs SLURM

1. Informations sur les partitions et les nœuds

  • Affiche un résumé des partitions et des nœuds disponibles, y compris leur état (disponible, occupé, etc.):

sinfo sinfo -Nel scontrol show partition

2. Détails des ressources de GPU

  • Permet de filtrer le détail des ressources de GPU :

sinfo -Ne -p gpu --format "%.15N %.4c %.7m %G"

3. Utilisation dans le temps

  • Pour regarder l’utilisation dans le temps :

sreport cluster UserUtilizationByAccount user=$USER start=2024-12-01 -t hours

4. Historique des calculs

  • Pour récupérer l'historique des calculs :

sacct -u $USER --format=JobID,JobName,partition,node,alloccpus,state,elapsed,maxrss,totalcpu,start,end -S 2024-12-01

5. Informations sur un job spécifique

  • Pour un job en cours ou terminé :

sacct -j $JobID

  • Afficher des informations détaillées sur un job spécifique en cours d'exécution ou en attente :

scontrol show job <job-id>

6. Suivi de la file d'attente des jobs

  • Pour suivre la file d'attente des jobs en cours (PD: Pending, R: Running, ...):

Tous les utilisateurs :

squeue -o "%.8i %.9P %.8j %.5u %.5a %.5t %.16V %.16S %.16M %.16L %.16e %.2D %.4C %.13q %R %f"

Ses propres jobs :

squeue -u $USER -o "%.8i %.9P %.8j %.5u %.5a %.5t %.16V %.16S %.16M %.16L %.16e %.2D %.4C %.13q %R %f"

7. Création d'un alias dans .bashrc

  • Pour créer un alias dans le fichier .bashrc :

alias squeue='squeue -o "%.8i %.9P %.8j %.5u %.5a %.5t %.16V %.16S %.16M %.16L %.16e %.2D %.4C %.13q %R %f"'

8. Analyse de l'efficacité des calculs

  • Pour récupérer les JobID, utilisez la commande suivante (adaptez la date à vos besoins) :

sacct -u $USER --format=JobID,state --starttime=2025-01-01 --noheader | grep COMPLETED | egrep -v ".0|bat|ext" | awk '{print $1}' > job_$USER.out

  • Pour analyser l'efficacité des calculs, une fois la liste des jobs récupérée dans job_$USER.out, exécutez la commande suivante :

for i in $(cat job_$USER.out); do seff $i; done | egrep "Job ID|CPU Efficiency|Memory Efficiency" > seff_$USER.out

Note : $USER est predefini, il correspond à votre identifiant eXplor.

9. Surveillez l’utilisation du cluster et le statut des nœuds

  • Pour surveiller le cluster, utilisez les commandes suivantes : sinfo, sinfo -Nel, qstat -q.
  • Afin d’adapter les ressources à allouer, utilisez des outils comme top, htop ou nvidia-smi. Pour utiliser ces commandes, d'abord connectez-vous au nœud où votre calcul est en cours en utilisant la commande suivante :

ssh <identifiant du nœud>

Rappel : Vous avez accès au nœud uniquement lorsque vous avez un calcul en cours.