Strumenti Utente

Strumenti Sito


calcoloscientifico:migrazione_a_slurm

Questa è una vecchia versione del documento!


Progetto di migrazione da PBS Pro a SLURM

Situazione iniziale

Ad inizio marzo 2018 l'infrastruttura HPC è composta da un gruppo di macchine di management che offrono servizi di vario genere a tre cluster di macchine di calcolo con job scheduler PBS Pro:

  • UNIPR::MANAGEMENT Group
  • PBS Pro ⇒ UNIPR::PROD
  • PBS Pro ⇒ UNIPR::TEST
  • PBS Pro ⇒ INFN::PREPROD

UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
cm01 Configuration Manager Provisioning, configuration management VRT Virtuale
ws01 Web Server DokuWiki VRT Virtuale
ds[03-04] Directory Server Identity provider, authentication VRT Virtuale
db02 Data Base Accounting VRT Virtuale
fs01 File Server Storage NAS 36 TB

PBS Pro - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui01 Text-based User Interface Login, compilation, job submission VRT Virtuale
ui03 Graphical User Interface Login, compilation, job submission VRT Virtuale
ce01 Computing Element Job scheduler VRT Virtuale
wn[01-08] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 32 core
wn33 Worker Node Computing node FAT Intel Xeon Broadwell, 1TB RAM, 32 core
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 5 NVIDIA Tesla P100
wn[51-54] Worker Node Computing node KNL Intel Xeon Phi Knights Landing
wn61 Worker Node Computing node VRT Virtuale

SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui02 User Interface Login, compilazione, sottomissione job VRT Virtuale
ce02 Computing Element Job scheduler VRT Virtuale
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 2 NVIDIA Tesla P100
wn[71-74] Worker Node Computing node VRT Virtuale

PBS Pro - INFN::PREPROD Cluster - pr.infn.it - Plesso di Fisica

Hostname Ruolo Funzioni Tipologia Risorse
ui10 User Interface Login, compilation, job submission VRT Virtuale
ce01 Computing Element Job scheduler VRT Virtuale
wn[81-97] Worker Node Computing node OLD Intel Xeon

Situazione transitoria

Entro la prima decade di aprile 2018 (data indicativa da concordare con E4) si estende il primo gruppo di management, si modifica il cluster di test, si aggiunge un nuovo gruppo di management e vedono la luce altri due cluster di macchine di calcolo con job scheduler SLURM:

  • UNIPR::MANAGEMENT Group
  • INFN::MANAGEMENT Group
  • PBS Pro ⇒ UNIPR::PROD
  • PBS Pro ⇒ INFN::PREPROD
  • SLURM ⇒ UNIPR::PREPROD
  • SLURM ⇒ UNIPR::TEST

UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
cm01 Configuration Manager Provisioning, configuration management VRT Virtuale
ws01 Web Server DokuWiki VRT Virtuale
ds[03-04] Directory Server Identity provider, authentication VRT Virtuale
db[01-02] Data Base Accounting VRT Virtuale
fs01 File Server Storage NAS 36 TB

INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
se[01-02] Storage Element Storage SAN, GPFS, BDW Intel Xeon Broadwell, 120 TB condivisi
se[03-06] Storage Element Storage, quorum GPFS, VRT Virtuale

SLURM - UNIPR::PREPROD Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui61 Text-based User Interface Login, compilation, job submission VRT Virtuale
ui62 Text-based User Interface Login, compilation, job submission VRT Virtuale
ui63 Graphical User Interface Login, compilation, job submission VRT Virtuale
ui64 Graphical User Interface Login, compilation, job submission VRT Virtuale
ce61 Computing Element Job scheduler VRT Virtuale
wn[09-17] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 28 core
wn34 Worker Node Computing node FAT Intel Xeon Broadwell, 512GB, 88 core
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 2 NVIDIA Tesla P100
wn[61-64] Worker Node Computing node VRT Virtuale

SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui71 User Interface Login, compilazione, sottomissione job VRT Virtuale
ce71 Computing Element Job scheduler VRT Virtuale
wn[71-74] Worker Node Computing node VRT Virtuale

Situazione a regime

Entro la fine aprile 2018 (data indicativa da concordare con E4) vengono fermati i servizi PBS Pro, il cluster UNIPR::PREPROD confluisce nel cluster UNIPR::PROD. Lo storage NAS viene sostituito dalla nuova architettura SAN + GPFS (Ethernet ed OmniPath). I vecchi Directory Server (ds[03-04] Scientific Linux 5.11) vengono sostituiti con macchine più aggiornate (ds[01-02] CentOS 7.4). I Worker Node con SLURM hanno accesso a tutte e 7 le GPU NVIDIA Tesla P100.

Il cluster INFN::PREPROD, ormai obsoleto, viene disattivato. Tutti gli utenti hanno da tempo accesso al cluster UNIPR::PROD.

Sul cluster UNIPR::PROD vengono attivati i servizi SLURM.

Il cluster UNIPR::TEST con servizi SLURM resta attivo.

UNIPR::MANAGEMENT Group - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
cm01 Configuration Manager Provisioning, configuration management VRT Virtuale
ws01 Web Server DokuWiki VRT Virtuale
ds[01-02] Directory Server Identity provider, authentication VRT Virtuale
db[01-01] Data Base Accounting VRT Virtuale

INFN::MANAGEMENT Group - pr.infn.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
se[01-02] Storage Element Storage SAN, GPFS, BDW Intel Xeon Broadwell, 120 TB condivisi
se03 Storage Element Storage, quorum GPFS, VRT Virtuale, 120 TB condivisi

SLURM - UNIPR::PROD Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui[01-02] Text-based User Interface Login, compilation, job submission VRT Virtuale
ui[03-04] Graphical User Interface Login, compilation, job submission VRT Virtuale
ce[01-02] Computing Element Job scheduler VRT Virtuale
wn[01-08] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 32 core
wn[09-17] Worker Node Computing node BDW Intel Xeon Broadwell, 128GB, 28 core
wn33 Worker Node Computing node FAT Intel Xeon Broadwell, 1TB RAM, 32 core
wn34 Worker Node Computing node FAT Intel Xeon Broadwell, 512GB RAM, 88 core
wn[41-42] Worker Node Computing node GPU Intel Xeon Broadwell, 7 NVIDIA Tesla P100
wn[51-54] Worker Node Computing node KNL Intel Xeon Phi Knights Landing
wn[61-64] Worker Node Computing node VRT Virtuale

SLURM - UNIPR::TEST Cluster - hpc.unipr.it - Data Center Ateneo

Hostname Ruolo Funzioni Tipologia Risorse
ui71 Text-based User Interface Login, compilazione, sottomissione job VRT Virtuale
ce71 Computing Element Job scheduler VRT Virtuale
wn[71-74] Worker Node Computing node VRT Virtuale

Requisiti

  • Accounting con DB (limiti?)
  • Priorità maggiore a chi ha usato meno risorse (fair share)
  • Riservare tutte o alcune risorse per alcune ore (advance reservation)
  • Numero massimo di job running contemporanei per utente

Ipotesi partizioni

Le partizioni sono differenziate per dare diverse priorità alle code (come attualmente in PBS), ma posso essere semplificate se tali priorità possono essere gestite in altro modo (QoS?)

Nome Time limit Risorse disponibili Policy
gpu_dbg 00:30:00 No limiti
gpu_short 06:00:00 MAX N/2 GPU, max N/2 job per utente
gpu_prod 24:00:00 MAX N-4 GPU (o job), max 4 job running per utente
bdw_dbg 00:30:00 wn01-08: MIN 1 core, MAX…
bdw_prod 24:00:00 MIN 2 core, MAX…
bdw_bigprod 240:00:00 MIN 2 core, MAX 2 nodi?
bdw_serial 240:00:00 MAX 1 core, Nodi virtuali…
bdw_fat wn33: MIN 205 GB memory
knl_dbg 00:30:00
knl_prod 24:00:00
knl_bigprod 240:00:00
calcoloscientifico/migrazione_a_slurm.1521211615.txt.gz · Ultima modifica: 16/03/2018 15:46 da fabio.spataro

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki