Strumenti Utente

Strumenti Sito


calcoloscientifico:guidautente_slurm

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Entrambe le parti precedenti la revisioneRevisione precedente
Prossima revisione
Revisione precedente
calcoloscientifico:guidautente_slurm [12/04/2018 13:00] – [Job Gromacs MPI ed OpenMP ==== === SLURM FATTO] paolo.oggianocalcoloscientifico:guidautente_slurm [06/06/2018 15:27] (versione attuale) – [Storage] roberto.covati
Linea 2: Linea 2:
 Progetto HPC <em>- Calcolo Scientifico dell'Università e dell'INFN di Parma -</em> Progetto HPC <em>- Calcolo Scientifico dell'Università e dell'INFN di Parma -</em>
 <br><font size="5"> Guida Utente (Versione Slurm) </font></font> </b></center></html> <br><font size="5"> Guida Utente (Versione Slurm) </font></font> </b></center></html>
-[[https://www.hpc.unipr.it/dokuwiki/doku.php?id=calcoloscientifico:guidautente_slurm_en|{{ :calcoloscientifico:english_flag.png?nolink&30 |}}]]+[[https://www.hpc.unipr.it/dokuwiki/doku.php?id=calcoloscientifico:guidautente_slurm_en|{{ :calcoloscientifico:english_flag.png?nolink&33 Click here for english version}}]]
  
 ** [[ calcoloscientifico:progetto | Descrizione del Progetto  ]]  ** ** [[ calcoloscientifico:progetto | Descrizione del Progetto  ]]  **
Linea 125: Linea 125:
  
 ^ Mount Point  ^ Env. Var.      Backup  ^ Quota (3)  ^  Nota  ^ Supporto ^ ^ Mount Point  ^ Env. Var.      Backup  ^ Quota (3)  ^  Nota  ^ Supporto ^
-^ /hpc/home      | $HOME    |  si   | 50GB  |  Programmi e dati  |  NAS    +^ /hpc/home      | $HOME    |  si   | 50 GB  |  Programmi e dati  |  SAN    
-^ /hpc/group      | $GROUP    si   50? GB  |  Programmi e dati  |  NAS    +^ /hpc/group      | $GROUP    si   100 GB  |  Programmi e dati  |  SAN    
-^ /hpc/scratch   | $SCRATCH |  no  | 1? TB  max 1 mese   |  Dati run-time   |  NAS (1)  |  +^ /hpc/scratch   | $SCRATCH |  no  | 10M files max 1 mese (non attivo)  |  Dati run-time   |  SAN  |  
-^ /hpc/archive   | $ARCHIVE    |   no        Archivio  |  NAS/tape/cloud (2)  |   +^ /hpc/archive   | $ARCHIVE    |   no        Archivio  |  NAS/tape/cloud (1)  |   
-^ /hpc/share  |          |      Software applicativo e database |  NAS  |  +^ /hpc/share  |          |      Software applicativo e database |  SAN  |  
  
 <note> <note>
-(1) Scratch: passaggio da NAS a SAN previsto per 2Q-2018\\ + 
-(2) Archive: attivato nel 2019\\ +(1) Archive: attivato nel 2019\\
-(3) Quota al momento non attiva+
 </note> </note>
  
Linea 160: Linea 159:
 Le code sono gestite con [[ https://slurm.schedmd.com | Slurm - WM ]]. Le code sono gestite con [[ https://slurm.schedmd.com | Slurm - WM ]].
 I job vengono sottomessi sulla coda di routing e smistati automaticamente su una coda di esecuzione in base alle risorse richieste. I job vengono sottomessi sulla coda di routing e smistati automaticamente su una coda di esecuzione in base alle risorse richieste.
 +
  
 ==== Code Batch ==== ==== Code Batch ====
Linea 180: Linea 180:
  
 ^Cluster  ^Partizione  ^QoS            ^Core           ^Max Walltime       ^Max Running  ^Max Memory ^Priority ^ ^Cluster  ^Partizione  ^QoS            ^Core           ^Max Walltime       ^Max Running  ^Max Memory ^Priority ^
-| BDW     bdw_debug  | no QoS        info......    | 0-00:30:00 minuti |                       | +| BDW     bdw        | ....          ......        | 0-00:30:00 minuti |                       | 
-|         bdw_prod   no QoS        info......    0-24:00:00 ore                              +|                                                                  
-        bdw_bprod  bdw_qos_bprod info......    10-00:00:00 giorni                         +KNL     knl        ....          | ......        0-00:30:00 minuti 
-|         bdw_fat    | ..            info......    info..            +|                    |                             |                   
-        bdw_serial bdw_qos_serial| info......    10-00:00:00 giorni| +GPU     gpu        | ....          | ......        | 0-00:30:00 minuti | 
-| KNL     | knl_debug  | knl_qos_dbg   | info......    | 0-00:30:00 minuti | +|                                                                  
-|         knl_prod   no QoS        info......    0-24:00:00 ore    +|         mngt       riservato     |                                 
-|         knl_bprod  knl_qos_bprod | info......    | 10-00:00:00 giorni| +|                                                                    
-| GPU     | gpu_debug  ....          | info......    | 0-00:30:00 minuti +|         mngt       riservato                                     |
-|         gpu_prod   ....          info......    0-24:00:00 ore    +
-|         gpu_short  ....          info......    0-06:00:00 ore    | +
 Area privata  Area privata 
 [[calcoloscientifico:priv:cluster:pbspro| PBSpro]] - [[calcoloscientifico:priv:cluster:pbspro| PBSpro]] -
Linea 219: Linea 216:
  
 <code> <code>
-salloc <opzioni>           # modalità interattiva +srun <opzioni>                # modalità interattiva 
-sbatch <opzioni> script.sh # modalità batch+sbatch <opzioni> script.sh    # modalità batch
 </code> </code>
  
Linea 229: Linea 226:
 </code> </code>
  
-Visualizza il credito ore residuo e scadenza/rinnovo per account:+Visualizzare il credito ore residuo per account oppure utente:
 <code> <code>
-sbalance+module load perl                                       # carica il modulo per il linguaggio perl 
 +sbalance --account <nome account> --user <nome utente> # visualizza il credito disponibile e residuo
 </code> </code>
 +<note> 
 +Il risultato viene espresso con l'unità di misura kSU: 1 SU (service units) = 1 ora di walltime in un core-cpu, 
 +quindi per esempio 1 kSU corrisponde a 1000 ore-cpu. 
 +</note>
 === Opzioni principali === === Opzioni principali ===
  
Linea 267: Linea 268:
 **-A <account name>** **-A <account name>**
  
-consente di specificare l'account (OBBLIGATORIO!) su cui addebitare l'utilizzo delle risorse. Esempi+consente di specificare l'account (OBBLIGATORIO!) cui addebitare l'utilizzo delle risorse. Esempi
 <code> <code>
 -A nome.cognome  -A nome.cognome 
Linea 317: Linea 318:
  
 <code bash> <code bash>
-salloc -N <numero di nodi> -n <numero cpu> -q <QOS> -C <tipo di nodo> -t <wall time> -L <file system>+srun -N <numero di nodi> -n <numero cpu> -q <QOS> -C <tipo di nodo> -t <wall time> -L <file system>
 cat $SLURM_JOB_NODELIST cat $SLURM_JOB_NODELIST
 scontrol show job <jobID> scontrol show job <jobID>
Linea 327: Linea 328:
 <code bash> <code bash>
 # 1 gruppo (chunk) di 2 CPU tipo BDW e file system Scratch # 1 gruppo (chunk) di 2 CPU tipo BDW e file system Scratch
-salloc -N1 -n2 -p bdw -L SCRATCH+srun -N1 -n2 -p bdw -L SCRATCH
  
 # 2 chunk da 2 CPU di tipo KNL e file system Scratch (possono stare sullo stesso nodo) # 2 chunk da 2 CPU di tipo KNL e file system Scratch (possono stare sullo stesso nodo)
-salloc -N2 -n2 -p knl -L SCRATCH+srun -N2 -n2 -p knl -L SCRATCH
  
 # I chunk devono stare su nodi diversi # I chunk devono stare su nodi diversi
-salloc -N2 -n2 -p knl --scatter+srun -N2 -n2 -p knl --scatter
  
 # 1 chunk con 2 GPU sul cluster GPU # 1 chunk con 2 GPU sul cluster GPU
-salloc -N1 -p gpu --gres=gpu:2 -L SCRATCH+srun -N1 -p gpu --gres=gpu:2 -L SCRATCH
  
 # 2 chunk ciascuno con 2 GPU su nodi diversi # 2 chunk ciascuno con 2 GPU su nodi diversi
-salloc -N2 --gres=gpu:2 -p gpu --exclusive,scatter+srun -N2 --gres=gpu:2 -p gpu --scatter
  
 # --ntask=Y dice a MPI quanti processi devono essere attivati per ogni chunk # --ntask=Y dice a MPI quanti processi devono essere attivati per ogni chunk
-salloc -N2 -n1 –ntasks=1: -p bdw+srun -N2 -n1 –ntasks=1: -p bdw
 </code> </code>
  
Linea 541: Linea 542:
 #SBATCH --cpus-per-task=4 #SBATCH --cpus-per-task=4
 #SBATCH --time 0-00:30:00 #SBATCH --time 0-00:30:00
-SBATCH -oe+#SBATCH -oe
  
 cat $SLURM_JOB_NODELIST cat $SLURM_JOB_NODELIST
Linea 981: Linea 982:
  
 #SBATCH -p bdw -N1 -n1 #SBATCH -p bdw -N1 -n1
-#SBATCH --gres=gpu:1+#SBATCH --gres=gpu:tesla:1
 #SBATCH --time 0-00:30:00 #SBATCH --time 0-00:30:00
  
Linea 1158: Linea 1159:
 # walltime -t / --time : tempo di esecuzione stimato, max 240 ore (meglio una stima per eccesso che effettiva) # walltime -t / --time : tempo di esecuzione stimato, max 240 ore (meglio una stima per eccesso che effettiva)
  
-#SBATCH -p bdw_debug -N1 -n32+#SBATCH -p bdw -N1 -n32
 #SBATCH --time 0-240:00:00  #SBATCH --time 0-240:00:00 
 #oppure --time 10-00:00:00 #oppure --time 10-00:00:00
Linea 1182: Linea 1183:
 # walltime -t : tempo di esecuzione stimato, max 240 ore (meglio una stima di poco superiore a effettiva) # walltime -t : tempo di esecuzione stimato, max 240 ore (meglio una stima di poco superiore a effettiva)
  
-#SBATCH -p gpu_dbg -N1 -n6 +#SBATCH -p gpu -N1 -n6 
-#SBATCH --gres=gpu:1+#SBATCH --gres=gpu:tesla:1
 #SBATCH --time 0-00:30:00 #SBATCH --time 0-00:30:00
  
calcoloscientifico/guidautente_slurm.1523530855.txt.gz · Ultima modifica: 12/04/2018 13:00 da paolo.oggiano

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki