Questa è una vecchia versione del documento!
Progetto di migrazione da PBS Pro a SLURM
Situazione iniziale
Ad inizio marzo 2018 l'infrastruttura HPC è composta da un gruppo di macchine di management che offrono servizi di vario genere a tre cluster di macchine di calcolo con job scheduler PBS Pro:
UNIPR::MANAGEMENT Group
PBS Pro ⇒ UNIPR::PROD
PBS Pro ⇒ UNIPR::TEST
PBS Pro ⇒ INFN::PREPROD
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
ws01 | Web Server | DokuWiki | VRT | Virtuale |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuale |
db02 | Data Base | Accounting | VRT | Virtuale |
fs01 | File Server | Storage | NAS | 36 TB |
PBS Pro - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui01 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui03 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ce01 | Computing Element | Job scheduler | VRT | Virtuale |
wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 5 NVIDIA Tesla P100 |
wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing |
wn61 | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui02 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
ce02 | Computing Element | Job scheduler | VRT | Virtuale |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
PBS Pro - INFN::PREPROD Cluster - pr.infn.it - Plesso di Fisica
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui10 | User Interface | Login, compilation, job submission | VRT | Virtuale |
ce01 | Computing Element | Job scheduler | VRT | Virtuale |
wn[81-97] | Worker Node | Computing node | OLD | Intel Xeon |
Situazione transitoria
Entro la prima decade di aprile 2018 (data indicativa da concordare con E4) si estende il primo gruppo di management, si modifica il cluster di test, si aggiunge un nuovo gruppo di management e vedono la luce altri due cluster di macchine di calcolo con job scheduler SLURM:
UNIPR::MANAGEMENT Group
INFN::MANAGEMENT Group
PBS Pro ⇒ UNIPR::PROD
PBS Pro ⇒ INFN::PREPROD
SLURM ⇒ UNIPR::PREPROD
SLURM ⇒ UNIPR::TEST
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
ws01 | Web Server | DokuWiki | VRT | Virtuale |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuale |
db[01-02] | Data Base | Accounting | VRT | Virtuale |
fs01 | File Server | Storage | NAS | 36 TB |
INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuale |
SLURM - UNIPR::PREPROD Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui61 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui62 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui63 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ui64 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ce61 | Computing Element | Job scheduler | VRT | Virtuale |
wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn34 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 512GB, 88 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
wn[61-64] | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui71 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
ce71 | Computing Element | Job scheduler | VRT | Virtuale |
wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
Situazione a regime
Entro la fine aprile 2018 vengono fermati i servizi PBS Pro, il cluster UNIPR::PREPROD confluisce nel cluster UNIPR::PROD. Lo storage NAS viene sostituito dalla nuova architettura SAN + GPFS (Ethernet ed OmniPath). I vecchi Directory Server (ds[03-04] Scientific Linux 5.11) vengono sostituiti con macchine più aggiornate (ds[01-02] CentOS 7.4). I Worker Node con SLURM hanno accesso a tutte e 7 le GPU NVIDIA Tesla P100.
Il cluster INFN::PREPROD, ormai obsoleto, viene disattivato. Tutti gli utenti hanno da tempo accesso al cluster UNIPR::PROD.
Sul cluster UNIPR::PROD vengono attivati i servizi SLURM.
Il cluster UNIPR::TEST con servizi SLURM resta attivo.
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
ws01 | Web Server | DokuWiki | VRT | Virtuale |
ds[01-02] | Directory Server | Identity provider, authentication | VRT | Virtuale |
db[01-01] | Data Base | Accounting | VRT | Virtuale |
INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuale, 120 TB condivisi |
SLURM - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui[01-02] | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui[03-04] | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ce[01-02] | Computing Element | Job scheduler | VRT | Virtuale |
wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
wn34 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 512GB RAM, 88 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 7 NVIDIA Tesla P100 |
wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing |
wn[61-64] | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui71 | Text-based User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
ce71 | Computing Element | Job scheduler | VRT | Virtuale |
wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
Requisiti
Accounting con DB ; limiti ?
Priorita' maggiore a chi ha usato meno risorse (Fair share)
Riservare tutte o alcune risorse per alcune ore (Advance reservation)
Numero massimo di job running contemporanei per utente
Ipotesi Partizioni
NOME | TIME LIMIT | Risorse disponibili | Policy |
gpu_dbg | 00:30:00 | No limiti, | |
gpu_short | 06:00:00 | MAX N/2 GPU , max N/2 job per utente | |
gpu_prod | 24:00:00 | MAX N-4 GPU (o Job), max 4 job running per utente, | |
bdw_dbg | 00:30:00 | MIN 1 core, MAX ..; wn01-08 high prio, wn33 low prio | |
bdw_prod | 24:00:00 | MIN 2 core, MAX .. , | |
bdw_bigprod | 240:00:00 | MIN 2 core, MAX 2 nodi? | |
bdw_serial | 240:00:00 | MAX 1 core, Nodi virtuali … | |
bdw_fat | | wn33 | |