Questa è una vecchia versione del documento!
Progetto di migrazione da PBS Pro a SLURM
Situazione iniziale
Ad inizio marzo 2018 l'infrastruttura HPC è composta da un gruppo di macchine di management che offrono servizi di vario genere a tre cluster di macchine di calcolo con job scheduler PBS Pro:
UNIPR::MANAGEMENT Group
PBS Pro ⇒ UNIPR::PROD
PBS Pro ⇒ UNIPR::TEST
PBS Pro ⇒ INFN::PREPROD
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
ws01 | Web Server | DokuWiki | VRT | Virtuale |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuale |
db02 | Data Base | Accounting | VRT | Virtuale |
fs01 | File Server | Storage | NAS | 36 TB |
PBS Pro - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui01 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui03 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ce01 | Computing Element | Job scheduler | VRT | Virtuale |
wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 5 NVIDIA Tesla P100 |
wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing |
wn61 | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui02 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
ce02 | Computing Element | Job scheduler | VRT | Virtuale |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
PBS Pro - INFN::PREPROD Cluster - pr.infn.it - Plesso di Fisica
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui10 | User Interface | Login, compilation, job submission | VRT | Virtuale |
ce01 | Computing Element | Job scheduler | VRT | Virtuale |
wn[81-97] | Worker Node | Computing node | OLD | Intel Xeon |
Situazione transitoria
Entro la prima decade di aprile 2018 si estende il primo gruppo di management, si modifica il cluster di test, si aggiunge un nuovo gruppo di management e vedono la luce altri due cluster di macchine di calcolo con job scheduler SLURM:
UNIPR::MANAGEMENT Group
INFN::MANAGEMENT Group
PBS Pro ⇒ UNIPR::PROD
PBS Pro ⇒ INFN::PREPROD
SLURM ⇒ UNIPR::PREPROD
SLURM ⇒ UNIPR::TEST
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
ws01 | Web Server | DokuWiki | VRT | Virtuale |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuale |
db[01-02] | Data Base | Accounting | VRT | Virtuale |
fs01 | File Server | Storage | NAS | 36 TB |
INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuale |
SLURM - UNIPR::PREPROD Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui61 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui62 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui63 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ui64 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ce61 | Computing Element | Job scheduler | VRT | Virtuale |
wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn34 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 512GB, 88 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
wn[61-64] | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui71 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
ce71 | Computing Element | Job scheduler | VRT | Virtuale |
wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
Situazione a regime
Entro la fine aprile 2018 vengono fermati i servizi PBS Pro, il cluster UNIPR::PREPROD confluisce nel cluster UNIPR::PROD. Lo storage NAS viene sostituito dalla nuova architettura SAN + GPFS (Ethernet ed OmniPath). I vecchi Directory Server (ds[03-04] Scientific Linux 5.11) vengono sostituiti con macchine più aggiornate (ds[01-02] CentOS 7.4). I Worker Node con SLURM hanno accesso a tutte e 7 le GPU NVIDIA Tesla P100.
Il cluster INFN::PREPROD, ormai obsoleto, viene disattivato. Tutti gli utenti hanno da tempo accesso al cluster UNIPR::PROD.
Sul cluster UNIPR::PROD vengono attivati i servizi SLURM.
Il cluster UNIPR::TEST con servizi SLURM resta attivo.
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
ws01 | Web Server | DokuWiki | VRT | Virtuale |
ds[01-02] | Directory Server | Identity provider, authentication | VRT | Virtuale |
db[01-01] | Data Base | Accounting | VRT | Virtuale |
INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuale, 120 TB condivisi |
SLURM - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui[01-02] | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
ui[03-04] | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
ce[01-02] | Computing Element | Job scheduler | VRT | Virtuale |
wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
wn34 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 512GB RAM, 88 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell con 7 NVIDIA Tesla P100 |
wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing |
wn[61-64] | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
ui71 | Text-based User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
ce71 | Computing Element | Job scheduler | VRT | Virtuale |
wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
Requisiti
Accounting con DB ; limiti ?
Priorita' maggiore a chi ha usato meno risorse (Fair share)
Riservare tutte o alcune risorse per alcune ore (Advance reservation)
Numero massimo di job running contemporanei per utente
Partizioni
NOME | TIME LIMIT | Risorse disponibili | Policy |
gpu_dbg | 00:30:00 | No limiti, | |
gpu_short | 06:00:00 | MAX N/2 GPU , max N/2 job per utente | |
gpu_prod | 24:00:00 | MAX N-4 GPU (o Job), max 4 job running per utente, | |
bdw_dbg | 00:30:00 | MIN 1 core, MAX ..; wn01-08 high prio, wn33 low prio | |
bdw_prod | 24:00:00 | MIN 2 core, MAX .. , | |
bdw_bigprod | 240:00:00 | MIN 2 core, MAX 2 nodi? | |
bdw_serial | 240:00:00 | MAX 1 core, Nodi virtuali … | |
bdw_fat | | wn33 | |