Strumenti Utente

Strumenti Sito


calcoloscientifico:migrazione_a_slurm

Progetto di migrazione da PBS Pro a SLURM

Situazione iniziale

Ad inizio marzo 2018 l'infrastruttura HPC è composta da un gruppo di macchine di management che offrono servizi di vario genere a tre cluster di macchine di calcolo con job scheduler PBS Pro:

  • UNIPR::MANAGEMENT Group
  • PBS Pro ⇒ UNIPR::PROD
  • PBS Pro ⇒ UNIPR::TEST
  • PBS Pro ⇒ INFN::PREPROD

UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
cm01 Configuration Manager Provisioning, configuration management VRT Virtuali
ws01 Web Server DokuWiki VRT Virtuali
ds[03-04] Directory Server Identity provider, authentication VRT Virtuali
db02 Data Base Accounting VRT Virtuali
fs01 File Server Storage NAS 36 TB

INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
se[01-02] Storage Element Storage SAN, GPFS, BDW Intel Xeon Broadwell, 120 TB condivisi
se[03-06] Storage Element Storage, quorum GPFS, VRT Virtuali

PBS Pro - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui01 Text-based User Interface Login, compilation, job submission VRT Virtuali
ui03 Graphical User Interface Login, compilation, job submission VRT Virtuali
ce01 Computing Element Job scheduler VRT Virtuali
wn[01-08] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 32 core
wn33 Worker Node Computing node FAT Intel Xeon Broadwell, 1TB RAM, 32 core
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 5 NVIDIA Tesla P100
wn[51-54] Worker Node Computing node KNL Intel Xeon Phi Knights Landing, 68 core
wn61 Worker Node Computing node VRT Virtuali

SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui02 User Interface Login, compilazione, sottomissione job VRT Virtuali
ce02 Computing Element Job scheduler VRT Virtuali
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 2 NVIDIA Tesla P100
wn[71-74] Worker Node Computing node VRT Virtuali

PBS Pro - INFN::PREPROD Cluster - pr.infn.it - Plesso di Fisica

Hostname Ruolo Funzioni Tipologia Risorse
ui10 User Interface Login, compilation, job submission VRT Virtuali
ce01 Computing Element Job scheduler VRT Virtuali
wn[81-97] Worker Node Computing node OLD Intel Xeon

Situazione transitoria

Entro la prima metà di aprile 2018 (data indicativa da concordare con E4) si estende il primo gruppo di management, si toglie dal cluster di prod uno dei nodi Intel Xeon Phi Knights Landing, si modifica il cluster di test, si aggiunge un nuovo gruppo di management e due cluster di macchine di calcolo sono gestite dal job scheduler SLURM:

  • UNIPR::MANAGEMENT Group
  • INFN::MANAGEMENT Group
  • PBS Pro ⇒ UNIPR::PROD
  • PBS Pro ⇒ INFN::PREPROD
  • SLURM ⇒ UNIPR::PREPROD
  • SLURM ⇒ UNIPR::TEST

UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
cm01 Configuration Manager Provisioning, configuration management VRT Virtuali
ws01 Web Server DokuWiki VRT Virtuali
ds[03-04] Directory Server Identity provider, authentication VRT Virtuali
db01 Data Base Accounting VRT Virtuali
fs01 File Server Storage NAS 36 TB

INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
se[01-02] Storage Element Storage SAN, GPFS, BDW Intel Xeon Broadwell, 120 TB condivisi
se[03-06] Storage Element Storage, quorum GPFS, VRT Virtuali

SLURM - UNIPR::PREPROD Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui61 Text-based User Interface Login, compilation, job submission VRT Virtuali
ui62 Web Server Open XDMoD VRT Virtuali
ce61 Computing Element Job scheduler VRT Virtuali
wn[09-16] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 28 core
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 2 core, 2 NVIDIA Tesla P100
wn[61-64] Worker Node Computing node VRT Virtuali

SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui71 User Interface Login, compilazione, sottomissione job VRT Virtuali
ce71 Computing Element Job scheduler VRT Virtuali
wn17 Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 28 core
wn34 Worker Node Computing node GPU Intel Xeon Broadwell, 512GB, 88 core, NVIDIA GeForce GTX 1050 Ti
wn54 Worker Node Computing node KNL Intel Xeon Phi Knights Landing, 68 core
wn[71-74] Worker Node Computing node VRT Virtuali

Situazione a regime

Entro la prima decade di maggio 2018 (data indicativa da concordare con E4) vengono fermati i servizi PBS Pro, il cluster UNIPR::PREPROD confluisce nel cluster UNIPR::PROD. Lo storage NAS viene sostituito dalla nuova architettura SAN + GPFS (Ethernet ed OmniPath). I Worker Node con SLURM hanno accesso a tutte e 7 le GPU NVIDIA Tesla P100.

Il cluster INFN::PREPROD, ormai obsoleto, viene disattivato. Tutti gli utenti hanno da tempo accesso al cluster UNIPR::PROD.

Sul cluster UNIPR::PROD vengono attivati i servizi SLURM.

Il cluster UNIPR::TEST con servizi SLURM resta attivo.

Entro la fine del 2018 vengono attivati un secondo Data Base server (db02) ed un secondo Computing Element (ce02).

Entro la fine del 2019 i vecchi Directory Server (ds[03-04] Scientific Linux 5.11) vengono sostituiti con macchine più aggiornate (ds[01-02] CentOS 7).

UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
cm01 Configuration Manager Provisioning, configuration management VRT Virtuali
ws01 Web Server DokuWiki VRT Virtuali
ds[03-04] Directory Server Identity provider, authentication VRT Virtuali
db01 Data Base Accounting VRT Virtuali

INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
se[01-02] Storage Element Storage SAN, GPFS, BDW Intel Xeon Broadwell, 120 TB condivisi
se03 Storage Element Storage, quorum GPFS, VRT Virtuali, 120 TB condivisi

SLURM - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui01 Text-based User Interface Login, compilation, job submission VRT Virtuali
ui03 Graphical User Interface Login, compilation, job submission VRT Virtuali
ce01 Computing Element Job scheduler VRT Virtuali
wn[01-08] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 32 core
wn[09-17] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 28 core
wn33 Worker Node Computing node BDW Intel Xeon Broadwell, 1TB RAM, 32 core
wn34 Worker Node Computing node BDW Intel Xeon Broadwell, 512GB RAM, 88 core
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 7 NVIDIA Tesla P100
wn[51-54] Worker Node Computing node KNL Intel Xeon Phi Knights Landing, 68 core
wn[61-64] Worker Node Computing node VRT Virtuali

SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui71 Text-based User Interface Login, compilazione, sottomissione job VRT Virtuali
ce71 Computing Element Job scheduler VRT Virtuali
wn[71-74] Worker Node Computing node VRT Virtuali

Requisiti

  • Accounting con DB (limiti?)
  • Priorità maggiore a chi ha usato meno risorse (fair share)
  • Riservare tutte o alcune risorse per alcune ore (advance reservation)
  • Numero massimo di job running contemporanei per utente

Ipotesi partizioni

Le partizioni sono differenziate per dare diverse priorità alle code (come attualmente in PBS), ma posso essere semplificate se tali priorità possono essere gestite in altro modo (QoS?)

Nome Time limit Risorse disponibili Policy
gpu_dbg 00:30:00 No limiti
gpu_short 06:00:00 MAX N/2 GPU, max N/2 job per utente
gpu_prod 24:00:00 MAX N-4 GPU (o job), max 4 job running per utente
bdw_dbg 00:30:00 wn01-08: MIN 1 core, MAX…
bdw_prod 24:00:00 MIN 2 core, MAX…
bdw_bigprod 240:00:00 MIN 2 core, MAX 2 nodi?
bdw_serial 240:00:00 MAX 1 core, Nodi virtuali…
bdw_fat wn33: MIN 205 GB memory
knl_dbg 00:30:00
knl_prod 24:00:00
knl_bigprod 240:00:00
calcoloscientifico/migrazione_a_slurm.txt · Ultima modifica: 12/04/2018 17:58 da fabio.spataro