Diagnosticherò e risolverò i problemi di performance del tuo cluster HPC
Informazioni su questo servizio
La maggior parte dei cluster HPC funziona al 30-40% della loro capacità effettiva.
Non perché l'hardware sia sbagliato. Ma perché la configurazione non è mai stata ottimizzata per il carico di lavoro reale.
Ho diagnosticato questo problema esattamente in istituti di ricerca, laboratori di AI e team di ingegneria. Le soluzioni sono quasi sempre nel software e nella configurazione, non nell'hardware.
Cosa copre l'audit:
Gap nella configurazione di Slurm (DefMemPerCPU, cgroup, fairshare)
Stato della rete InfiniBand e validazione della velocità di link
Throughput dello storage (configurazione stripe di Lustre/BeeGFS/NFS)
Binding dei processi MPI e topologia NUMA
Efficacia di HPL rispetto al picco teorico
Stato dei nodi e rilevamento di guasti hardware silenziosi
Cosa riceverai:
Diagnosi scritta con valutazione di gravità per ogni problema
Soluzione precisa per ogni problema, comandi inclusi, prima/dopo i numeri di benchmark
Ordine di priorità: cosa risolvere prima per massimizzare l'impatto
Cosa mi serve da te: accesso SSH al nodo login, le specifiche del tuo cluster e 2 ore di attività a basso carico per il benchmarking.
Tempi di consegna: 24-48 ore dopo aver ricevuto l'accesso.
Dispositivo:
Server
Sistema operativo:
Linux
