Progetterò dashboard Grafana professionali per kubernetes, linux e hpc
Ingegnere di sistemi HPC e Linux ad alte prestazioni
Informazioni su questo servizio
Informazioni su questo servizio
Ottimizza la tua infrastruttura! Ottieni visibilità di livello enterprise con dashboard Grafana personalizzati progettati da un Esperto di AI & HPC.
In AI e High-Performance Computing, le prestazioni sono tutto. Costruisco stack di osservabilità avanzati per ambienti complessi. Che tu gestisca un cluster di addestramento AI, Kubernetes (K8s), o un sistema HPC Linux, ti fornisco gli insight in tempo reale di cui hai bisogno.
Cosa offro:
- Monitoraggio HPC & AI: Metriche approfondite per l'utilizzo di GPU (NVIDIA/AMD), lavori Slurm e InfiniBand.
- Osservabilità Kubernetes: Monitoraggio completo per K8s (GKE, EKS, AKS) focalizzato sulla salute delle risorse e sulla scalabilità.
- Maestria Linux: Dashboard dettagliate per CPU, RAM, I/O disco e throughput di rete.
- Allarmi intelligenti: Configurazione di avvisi Slack o Email per individuare i colli di bottiglia in anticipo.
- PromQL avanzato: Query esperte di Prometheus per visualizzazioni dati ad alta velocità.
Perché scegliere me?
Specialista AI: Conosco i workload di addestramento LLM e inferenza AI. Prestazioni HPC: Dashboard ottimizzate per grandi quantità di dati. Tecnologia moderna: Esperto in Prometheus, Loki e OpenTelemetry.
Trasformiamo i tuoi metrici grezzi in azioni concrete sulle prestazioni oggi stesso!
Il mio portfolio
FAQ
Traduzione automatica.
Puoi monitorare l'uso della GPU per l'addestramento di modelli AI?
Sì! Sono specializzato nel monitoraggio delle metriche GPU NVIDIA e AMD, inclusi utilizzo della memoria, temperatura e consumo energetico. Questo è essenziale per ottimizzare i cluster di addestramento AI e garantire che l'hardware funzioni al massimo delle sue capacità.
Quali fonti di dati supportate?
Lavoro con una vasta gamma di fonti di dati, tra cui Prometheus, VictoriaMetrics, InfluxDB, Loki (per i log) e strumenti cloud-native come AWS CloudWatch e Google Stackdriver. Posso anche integrare esportatori di metriche AI/ML personalizzati.
Puoi impostare allarmi per Slack o Email?
Assolutamente sì. Configuro regole di allerta intelligenti per avvisarti immediatamente di carichi elevati di CPU/GPU, crash dei pod in Kubernetes o fallimenti dei job nel tuo cluster HPC. Posso anche configurare routing on-call.
Supporti scheduler HPC come Slurm?
Sì. Posso creare dashboard che visualizzano le code di job Slurm, la disponibilità dei nodi e lo stato delle partizioni. Questo fornisce agli amministratori HPC e ai ricercatori una visione chiara dell'utilizzo del loro cluster.
Devo fornire il server per Grafana?
Posso lavorare con la tua configurazione esistente o aiutarti a distribuire una nuova istanza su AWS, GCP, Azure o Bare Metal. Supporto anche Grafana Cloud se preferisci una soluzione gestita.

