Questa è una vecchia versione del documento!
Progetto di migrazione da PBS Pro a SLURM
Situazione iniziale
Ad inizio marzo 2018 l'infrastruttura HPC è composta da un gruppo di macchine di management che offrono servizi di vario genere a tre cluster di macchine di calcolo con job scheduler PBS Pro:
UNIPR::MANAGEMENT Group
PBS Pro ⇒ UNIPR::PROD
PBS Pro ⇒ UNIPR::TEST
PBS Pro ⇒ INFN::PREPROD
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
| ws01 | Web Server | DokuWiki | VRT | Virtuale |
| ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuale |
| db02 | Data Base | Accounting | VRT | Virtuale |
| fs01 | File Server | Storage | NAS | 36 TB |
PBS Pro - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui01 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
| ui03 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
| ce01 | Computing Element | Job scheduler | VRT | Virtuale |
| wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
| wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
| wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 5 NVIDIA Tesla P100 |
| wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing |
| wn61 | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui02 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
| ce02 | Computing Element | Job scheduler | VRT | Virtuale |
| wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
| wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
PBS Pro - INFN::PREPROD Cluster - pr.infn.it - Plesso di Fisica
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui10 | User Interface | Login, compilation, job submission | VRT | Virtuale |
| ce01 | Computing Element | Job scheduler | VRT | Virtuale |
| wn[81-97] | Worker Node | Computing node | OLD | Intel Xeon |
Situazione transitoria
Entro la prima decade di aprile 2018 si estende il primo gruppo di management, si modifica il cluster di test, si aggiunge un nuovo gruppo di management e vedono la luce altri due cluster di macchine di calcolo con job scheduler SLURM:
UNIPR::MANAGEMENT Group
INFN::MANAGEMENT Group
PBS Pro ⇒ UNIPR::PROD
PBS Pro ⇒ INFN::PREPROD
SLURM ⇒ UNIPR::PREPROD
SLURM ⇒ UNIPR::TEST
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
| ws01 | Web Server | DokuWiki | VRT | Virtuale |
| ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuale |
| db[01-02] | Data Base | Accounting | VRT | Virtuale |
| fs01 | File Server | Storage | NAS | 36 TB |
INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
| se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuale |
SLURM - UNIPR::PREPROD Cluster - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui61 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
| ui62 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
| ui63 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
| ui64 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
| ce61 | Computing Element | Job scheduler | VRT | Virtuale |
| wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
| wn34 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 512GB, 88 core |
| wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
| wn[61-64] | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui71 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
| ce71 | Computing Element | Job scheduler | VRT | Virtuale |
| wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
Situazione a regime
Entro la fine aprile 2018 vengono fermati i servizi PBS Pro, il cluster UNIPR::PREPROD confluisce nel cluster UNIPR::PROD. Lo storage NAS viene sostituito dalla nuova architettura SAN + GPFS (Ethernet ed OmniPath). I vecchi Directory Server (ds[03-04] Scientific Linux 5.11) vengono sostituiti con macchine più aggiornate (ds[01-02] CentOS 7.4). I Worker Node con SLURM hanno accesso a tutte e 7 le GPU NVIDIA Tesla P100.
Il cluster INFN::PREPROD, ormai obsoleto, viene disattivato. Tutti gli utenti hanno da tempo accesso al cluster UNIPR::PROD.
Sul cluster UNIPR::PROD vengono attivati i servizi SLURM.
Il cluster UNIPR::TEST con servizi SLURM resta attivo.
UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuale |
| ws01 | Web Server | DokuWiki | VRT | Virtuale |
| ds[01-02] | Directory Server | Identity provider, authentication | VRT | Virtuale |
| db[01-01] | Data Base | Accounting | VRT | Virtuale |
INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
| se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuale, 120 TB condivisi |
SLURM - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui[01-02] | Text-based User Interface | Login, compilation, job submission | VRT | Virtuale |
| ui[03-04] | Graphical User Interface | Login, compilation, job submission | VRT | Virtuale |
| ce[01-02] | Computing Element | Job scheduler | VRT | Virtuale |
| wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
| wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
| wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
| wn34 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 512GB RAM, 88 core |
| wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell con 7 NVIDIA Tesla P100 |
| wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing |
| wn[61-64] | Worker Node | Computing node | VRT | Virtuale |
SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo
| Hostname | Ruolo | Funzioni | Tipologia | Risorse |
| ui71 | Text-based User Interface | Login, compilazione, sottomissione job | VRT | Virtuale |
| ce71 | Computing Element | Job scheduler | VRT | Virtuale |
| wn[71-74] | Worker Node | Computing node | VRT | Virtuale |
Requisiti
Accounting con DB ; limiti ?
Priorita' maggiore a chi ha usato meno risorse (Fair share)
Riservare tutte o alcune risorse per alcune ore (Advance reservation)
Numero massimo di job running contemporanei per utente