Diagnosticherò e risolverò i problemi di performance del tuo cluster HPC

Alcune informazioni sono state tradotte automaticamente.

India

Parlo Inglese
Come HPC Solutions Architect, ho configurato sette sistemi HPC in tutta l'India, integrando hardware e software all'avanguardia per compiti computazionali ad alta richiesta. Mi specializzo nell'ottimi...
Informazioni su questo servizio

La maggior parte dei cluster HPC funziona al 30-40% della loro capacità effettiva.


Non perché l'hardware sia sbagliato. Ma perché la configurazione non è mai stata ottimizzata per il carico di lavoro reale.


Ho diagnosticato questo problema esattamente in istituti di ricerca, laboratori di AI e team di ingegneria. Le soluzioni sono quasi sempre nel software e nella configurazione, non nell'hardware.


Cosa copre l'audit:


Gap nella configurazione di Slurm (DefMemPerCPU, cgroup, fairshare)

Stato della rete InfiniBand e validazione della velocità di link

Throughput dello storage (configurazione stripe di Lustre/BeeGFS/NFS)

Binding dei processi MPI e topologia NUMA

Efficacia di HPL rispetto al picco teorico

Stato dei nodi e rilevamento di guasti hardware silenziosi


Cosa riceverai:


Diagnosi scritta con valutazione di gravità per ogni problema

Soluzione precisa per ogni problema, comandi inclusi, prima/dopo i numeri di benchmark

Ordine di priorità: cosa risolvere prima per massimizzare l'impatto


Cosa mi serve da te: accesso SSH al nodo login, le specifiche del tuo cluster e 2 ore di attività a basso carico per il benchmarking.


Tempi di consegna: 24-48 ore dopo aver ricevuto l'accesso.

Dispositivo:

Server

Sistema operativo:

Linux

Altri servizi della categoria Assistenza e IT offerti da me

Tag correlati