Ad inizio marzo 2018 l'infrastruttura HPC è composta da un gruppo di macchine di management che offrono servizi di vario genere a tre cluster di macchine di calcolo con job scheduler PBS Pro:
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuali |
ws01 | Web Server | DokuWiki | VRT | Virtuali |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuali |
db02 | Data Base | Accounting | VRT | Virtuali |
fs01 | File Server | Storage | NAS | 36 TB |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se[03-06] | Storage Element | Storage, quorum | GPFS, VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui01 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuali |
ui03 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuali |
ce01 | Computing Element | Job scheduler | VRT | Virtuali |
wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
wn33 | Worker Node | Computing node | FAT | Intel Xeon Broadwell, 1TB RAM, 32 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 5 NVIDIA Tesla P100 |
wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing, 68 core |
wn61 | Worker Node | Computing node | VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui02 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuali |
ce02 | Computing Element | Job scheduler | VRT | Virtuali |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 NVIDIA Tesla P100 |
wn[71-74] | Worker Node | Computing node | VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui10 | User Interface | Login, compilation, job submission | VRT | Virtuali |
ce01 | Computing Element | Job scheduler | VRT | Virtuali |
wn[81-97] | Worker Node | Computing node | OLD | Intel Xeon |
Entro la prima metà di aprile 2018 (data indicativa da concordare con E4) si estende il primo gruppo di management, si toglie dal cluster di prod uno dei nodi Intel Xeon Phi Knights Landing, si modifica il cluster di test, si aggiunge un nuovo gruppo di management e due cluster di macchine di calcolo sono gestite dal job scheduler SLURM:
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuali |
ws01 | Web Server | DokuWiki | VRT | Virtuali |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuali |
db01 | Data Base | Accounting | VRT | Virtuali |
fs01 | File Server | Storage | NAS | 36 TB |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se[03-06] | Storage Element | Storage, quorum | GPFS, VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui61 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuali |
ui62 | Web Server | Open XDMoD | VRT | Virtuali |
ce61 | Computing Element | Job scheduler | VRT | Virtuali |
wn[09-16] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 2 core, 2 NVIDIA Tesla P100 |
wn[61-64] | Worker Node | Computing node | VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui71 | User Interface | Login, compilazione, sottomissione job | VRT | Virtuali |
ce71 | Computing Element | Job scheduler | VRT | Virtuali |
wn17 | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn34 | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 512GB, 88 core, NVIDIA GeForce GTX 1050 Ti |
wn54 | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing, 68 core |
wn[71-74] | Worker Node | Computing node | VRT | Virtuali |
Entro la prima decade di maggio 2018 (data indicativa da concordare con E4) vengono fermati i servizi PBS Pro, il cluster UNIPR::PREPROD confluisce nel cluster UNIPR::PROD. Lo storage NAS viene sostituito dalla nuova architettura SAN + GPFS (Ethernet ed OmniPath). I Worker Node con SLURM hanno accesso a tutte e 7 le GPU NVIDIA Tesla P100.
Il cluster INFN::PREPROD, ormai obsoleto, viene disattivato. Tutti gli utenti hanno da tempo accesso al cluster UNIPR::PROD.
Sul cluster UNIPR::PROD vengono attivati i servizi SLURM.
Il cluster UNIPR::TEST con servizi SLURM resta attivo.
Entro la fine del 2018 vengono attivati un secondo Data Base server (db02) ed un secondo Computing Element (ce02).
Entro la fine del 2019 i vecchi Directory Server (ds[03-04] Scientific Linux 5.11) vengono sostituiti con macchine più aggiornate (ds[01-02] CentOS 7).
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
cm01 | Configuration Manager | Provisioning, configuration management | VRT | Virtuali |
ws01 | Web Server | DokuWiki | VRT | Virtuali |
ds[03-04] | Directory Server | Identity provider, authentication | VRT | Virtuali |
db01 | Data Base | Accounting | VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
se[01-02] | Storage Element | Storage | SAN, GPFS, BDW | Intel Xeon Broadwell, 120 TB condivisi |
se03 | Storage Element | Storage, quorum | GPFS, VRT | Virtuali, 120 TB condivisi |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui01 | Text-based User Interface | Login, compilation, job submission | VRT | Virtuali |
ui03 | Graphical User Interface | Login, compilation, job submission | VRT | Virtuali |
ce01 | Computing Element | Job scheduler | VRT | Virtuali |
wn[01-08] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 32 core |
wn[09-17] | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 128GB, 28 core |
wn33 | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 1TB RAM, 32 core |
wn34 | Worker Node | Computing node | BDW | Intel Xeon Broadwell, 512GB RAM, 88 core |
wn[41-42] | Worker Node | Computing node | GPU | Intel Xeon Broadwell, 7 NVIDIA Tesla P100 |
wn[51-54] | Worker Node | Computing node | KNL | Intel Xeon Phi Knights Landing, 68 core |
wn[61-64] | Worker Node | Computing node | VRT | Virtuali |
Hostname | Ruolo | Funzioni | Tipologia | Risorse |
---|---|---|---|---|
ui71 | Text-based User Interface | Login, compilazione, sottomissione job | VRT | Virtuali |
ce71 | Computing Element | Job scheduler | VRT | Virtuali |
wn[71-74] | Worker Node | Computing node | VRT | Virtuali |
Le partizioni sono differenziate per dare diverse priorità alle code (come attualmente in PBS), ma posso essere semplificate se tali priorità possono essere gestite in altro modo (QoS?)
Nome | Time limit | Risorse disponibili | Policy |
---|---|---|---|
gpu_dbg | 00:30:00 | No limiti | |
gpu_short | 06:00:00 | MAX N/2 GPU, max N/2 job per utente | |
gpu_prod | 24:00:00 | MAX N-4 GPU (o job), max 4 job running per utente | |
bdw_dbg | 00:30:00 | wn01-08: MIN 1 core, MAX… | |
bdw_prod | 24:00:00 | MIN 2 core, MAX… | |
bdw_bigprod | 240:00:00 | MIN 2 core, MAX 2 nodi? | |
bdw_serial | 240:00:00 | MAX 1 core, Nodi virtuali… | |
bdw_fat | wn33: MIN 205 GB memory | ||
knl_dbg | 00:30:00 | ||
knl_prod | 24:00:00 | ||
knl_bigprod | 240:00:00 |