Fornirò consulenza aiops e sre per devops e affidabilità del cloud
Ingegnere GPU Infrastructure LLMOps NVIDIA Kubernetes Neo Cloud
Informazioni su questo servizio
Stai distribuendo prodotti LLM ma hai problemi con l'infrastruttura GPU, la scalabilità e l'affidabilità? Aiuto i team a costruire piattaforme GPU di livello produzione dall'inizio alla fine.
Ciò che ottieni: configurazione Neo cloud GPU e rafforzamento del cluster, scheduling GPU Kubernetes e autoscaling per training e inferenza LLM (vLLM/Ollama/Triton), MLOps/LLMOps, CI/CD per modelli e pipeline di dati, monitoraggio GPU e avvisi usando NVIDIA DCGM + Prometheus + Grafana, ottimizzazione dei costi, pianificazione della capacità e migliori pratiche di osservabilità
Le consegne possono includere revisione dell'architettura, piano di deployment e implementazione pratica a seconda del livello del pacchetto.
Strumenti:
Docker
•
GitLab
•
Jenkins
•
GitHub
•
CircleCI
Framework:
Terraform
•
Ansible
Linguaggio di programmazione:
Bash
•
Python
•
Golang
Expertise:
Installazione
•
Migrazione
•
Configurazione
