Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

--- calcoloscientifico:guidautente_slurm [12/04/2018 12:58] – [Utilizzo del cluster GPU ===== == SLURM FATTO MA DA RIVEDERE BENE] paolo.oggiano
+++ calcoloscientifico:guidautente_slurm [06/06/2018 15:27] (versione attuale) – [Storage] roberto.covati
@@ Linea 2: / Linea 2: @@
 Progetto HPC <em>- Calcolo Scientifico dell'Università e dell'INFN di Parma -</em>
 <br><font size="5"> Guida Utente (Versione Slurm) </font></font> </b></center></html>
-[[https://www.hpc.unipr.it/dokuwiki/doku.php?id=calcoloscientifico:guidautente_slurm_en|{{ :calcoloscientifico:english_flag.png?nolink&30 |}}]]
+[[https://www.hpc.unipr.it/dokuwiki/doku.php?id=calcoloscientifico:guidautente_slurm_en|{{ :calcoloscientifico:english_flag.png?nolink&33 | Click here for english version}}]]
 ** [[ calcoloscientifico:progetto | Descrizione del Progetto  ]]  **
@@ Linea 125: / Linea 125: @@
 ^ Mount Point  ^ Env. Var.   ^    Backup  ^ Quota (3)  ^  Nota  ^ Supporto ^
-^ /hpc/home      | $HOME    |  si   | 50? GB  |  Programmi e dati  |  NAS  |
+^ /hpc/home      | $HOME    |  si   | 50 GB  |  Programmi e dati  |  SAN  |
-^ /hpc/group      | $GROUP   |  si   | 50? GB  |  Programmi e dati  |  NAS  |
+^ /hpc/group      | $GROUP   |  si   | 100 GB  |  Programmi e dati  |  SAN  |
-^ /hpc/scratch   | $SCRATCH |  no  | 1? TB,   max 1 mese   |  Dati run-time   |  NAS (1)  |
+^ /hpc/scratch   | $SCRATCH |  no  | 10M files,  max 1 mese (non attivo)  |  Dati run-time   |  SAN  |
-^ /hpc/archive   | $ARCHIVE    |   no   |     |  Archivio  |  NAS/tape/cloud (2)  |
+^ /hpc/archive   | $ARCHIVE    |   no   |     |  Archivio  |  NAS/tape/cloud (1)  |
-^ /hpc/share  |     |      |     |  Software applicativo e database |  NAS  |
+^ /hpc/share  |     |      |     |  Software applicativo e database |  SAN  |
 <note>
-(1) Scratch: passaggio da NAS a SAN previsto per 2Q-2018\\
-(2) Archive: attivato nel 2019\\
+(1) Archive: attivato nel 2019\\
-(3) Quota al momento non attiva
 </note>
@@ Linea 160: / Linea 159: @@
 Le code sono gestite con [[ https://slurm.schedmd.com | Slurm - WM ]].
 I job vengono sottomessi sulla coda di routing e smistati automaticamente su una coda di esecuzione in base alle risorse richieste.
 ==== Code Batch ====
@@ Linea 180: / Linea 180: @@
 ^Cluster  ^Partizione  ^QoS            ^Core           ^Max Walltime       ^Max Running  ^Max Memory ^Priority ^
-| BDW     | bdw_debug  | no QoS        | info......    | 0-00:30:00 minuti |             |           |
+| BDW     | bdw        | ....          | ......        | 0-00:30:00 minuti |             |           |
-|         | bdw_prod   | no QoS        | info......    | 0-24:00:00 ore    |
+|         |            |               |               |                   |
-|         | bdw_bprod  | bdw_qos_bprod | info......    | 10-00:00:00 giorni|
+| KNL     | knl        | ....          | ......        | 0-00:30:00 minuti |
-|         | bdw_fat    | ..            | info......    | info..            |
+|         |            |               |               |                   |
-|         | bdw_serial | bdw_qos_serial| info......    | 10-00:00:00 giorni|
+| GPU     | gpu        | ....          | ......        | 0-00:30:00 minuti |
-| KNL     | knl_debug  | knl_qos_dbg   | info......    | 0-00:30:00 minuti |
+|         |            |               |               |                   |
-|         | knl_prod   | no QoS        | info......    | 0-24:00:00 ore    |
+|         | mngt       | riservato     |               |                   |
-|         | knl_bprod  | knl_qos_bprod | info......    | 10-00:00:00 giorni|
+|         |            |               |               |                   |
-| GPU     | gpu_debug  | ....          | info......    | 0-00:30:00 minuti |
+|         | mngt       | riservato     |               |                   |
-|         | gpu_prod   | ....          | info......    | 0-24:00:00 ore    |
-|         | gpu_short  | ....          | info......    | 0-06:00:00 ore    |
 Area privata
 [[calcoloscientifico:priv:cluster:pbspro| PBSpro]] -
@@ Linea 219: / Linea 216: @@
 <code>
-salloc <opzioni>           # modalità interattiva
+srun <opzioni>                # modalità interattiva
-sbatch <opzioni> script.sh # modalità batch
+sbatch <opzioni> script.sh    # modalità batch
 </code>
@@ Linea 229: / Linea 226: @@
 </code>
-Visualizza il credito ore residuo e scadenza/rinnovo per account:
+Visualizzare il credito ore residuo per account oppure utente:
 <code>
-sbalance
+module load perl                                       # carica il modulo per il linguaggio perl
+sbalance --account <nome account> --user <nome utente> # visualizza il credito disponibile e residuo
 </code>
+<note>
+Il risultato viene espresso con l'unità di misura kSU: 1 SU (service units) = 1 ora di walltime in un core-cpu,
+quindi per esempio 1 kSU corrisponde a 1000 ore-cpu.
+</note>
 === Opzioni principali ===
@@ Linea 267: / Linea 268: @@
 **-A <account name>**
-consente di specificare l'account (OBBLIGATORIO!) su cui addebitare l'utilizzo delle risorse. Esempi
+consente di specificare l'account (OBBLIGATORIO!) a cui addebitare l'utilizzo delle risorse. Esempi
 <code>
 -A nome.cognome
@@ Linea 317: / Linea 318: @@
 <code bash>
-salloc -N <numero di nodi> -n <numero cpu> -q <QOS> -C <tipo di nodo> -t <wall time> -L <file system>
+srun -N <numero di nodi> -n <numero cpu> -q <QOS> -C <tipo di nodo> -t <wall time> -L <file system>
 cat $SLURM_JOB_NODELIST
 scontrol show job <jobID>
@@ Linea 327: / Linea 328: @@
 <code bash>
 # 1 gruppo (chunk) di 2 CPU tipo BDW e file system Scratch
-salloc -N1 -n2 -p bdw -L SCRATCH
+srun -N1 -n2 -p bdw -L SCRATCH
 # 2 chunk da 2 CPU di tipo KNL e file system Scratch (possono stare sullo stesso nodo)
-salloc -N2 -n2 -p knl -L SCRATCH
+srun -N2 -n2 -p knl -L SCRATCH
 # I chunk devono stare su nodi diversi
-salloc -N2 -n2 -p knl --scatter
+srun -N2 -n2 -p knl --scatter
 # 1 chunk con 2 GPU sul cluster GPU
-salloc -N1 -p gpu --gres=gpu:2 -L SCRATCH
+srun -N1 -p gpu --gres=gpu:2 -L SCRATCH
 # 2 chunk ciascuno con 2 GPU su nodi diversi
-salloc -N2 --gres=gpu:2 -p gpu --exclusive,scatter
+srun -N2 --gres=gpu:2 -p gpu --scatter
 # --ntask=Y dice a MPI quanti processi devono essere attivati per ogni chunk
-salloc -N2 -n1 –ntasks=1: -p bdw
+srun -N2 -n1 –ntasks=1: -p bdw
 </code>
@@ Linea 541: / Linea 542: @@
 #SBATCH --cpus-per-task=4
 #SBATCH --time 0-00:30:00
-SBATCH -oe
+#SBATCH -oe
 cat $SLURM_JOB_NODELIST
@@ Linea 811: / Linea 812: @@
 # 1 nodo con 5 GPU
-#SBATCH -p gpu_debug -N1
+#SBATCH -p gpu -N1
 #SBATCH --gres=gpu:tesla:5
 #SBATCH --time 0-00:30:00
@@ Linea 933: / Linea 934: @@
-#SBATCH -p bdw_debug -N1 -n1
+#SBATCH -p bdw -N1 -n1
 #SBATCH --time 0-00:30:00
@@ Linea 957: / Linea 958: @@
-#SBATCH -p bdw_debug -N1 -n4
+#SBATCH -p bdw -N1 -n4
 #SBATCH --time 0-00:30:00
@@ Linea 980: / Linea 981: @@
 #!/bin/bash
-#SBATCH -p bdw_debug -N1 -n1
+#SBATCH -p bdw -N1 -n1
-#SBATCH --gres=gpu:1
+#SBATCH --gres=gpu:tesla:1
 #SBATCH --time 0-00:30:00
@@ Linea 1002: / Linea 1003: @@
 #SBATCH --job-name="crystal14" #Nome del job
-#SBATCH -p bdw_debug -N4 -n8 #Richiesta risorse
+#SBATCH -p bdw -N4 -n8 #Richiesta risorse
 #SBATCH -n8
 #SBATCH --time 0-168:00:00
@@ Linea 1094: / Linea 1095: @@
 #!/bin/sh
-#SBATCH -p bdw_debug -N1 -n32
+#SBATCH -p bdw -N1 -n32
 #SBATCH --cpus-per-task=16      # Numero di threads OpenMP
 #SBATCH --exclusive
@@ Linea 1122: / Linea 1123: @@
 #!/bin/sh
-#SBATCH -p bdw_debug -N2 -n32
+#SBATCH -p bdw -N2 -n32
 #SBATCH -n 8
 #SBATCH --exclusive
@@ Linea 1158: / Linea 1159: @@
 # walltime -t / --time : tempo di esecuzione stimato, max 240 ore (meglio una stima per eccesso che effettiva)
-#SBATCH -p bdw_debug -N1 -n32
+#SBATCH -p bdw -N1 -n32
 #SBATCH --time 0-240:00:00
 #oppure --time 10-00:00:00
@@ Linea 1182: / Linea 1183: @@
 # walltime -t : tempo di esecuzione stimato, max 240 ore (meglio una stima di poco superiore a effettiva)
-#SBATCH -p gpu_dbg -N1 -n6
+#SBATCH -p gpu -N1 -n6
-#SBATCH --gres=gpu:1
+#SBATCH --gres=gpu:tesla:1
 #SBATCH --time 0-00:30:00