Fornirò consulenza aiops e sre per devops e affidabilità del cloud

Alcune informazioni sono state tradotte automaticamente.

Stati Uniti

Parlo Inglese

Ingegnere GPU Infrastructure LLMOps NVIDIA Kubernetes Neo Cloud

Costruisco infrastrutture scalabili con GPU NVIDIA per l'addestramento e l'inferenza di AI. Mi specializzo in cluster GPU Kubernetes, addestramento/inferenza di LLM e osservabilità delle GPU. Serviz...
Informazioni su questo servizio

Stai distribuendo prodotti LLM ma hai problemi con l'infrastruttura GPU, la scalabilità e l'affidabilità? Aiuto i team a costruire piattaforme GPU di livello produzione dall'inizio alla fine.

Ciò che ottieni: configurazione Neo cloud GPU e rafforzamento del cluster, scheduling GPU Kubernetes e autoscaling per training e inferenza LLM (vLLM/Ollama/Triton), MLOps/LLMOps, CI/CD per modelli e pipeline di dati, monitoraggio GPU e avvisi usando NVIDIA DCGM + Prometheus + Grafana, ottimizzazione dei costi, pianificazione della capacità e migliori pratiche di osservabilità

Le consegne possono includere revisione dell'architettura, piano di deployment e implementazione pratica a seconda del livello del pacchetto.

Strumenti:

Docker

GitLab

Jenkins

GitHub

CircleCI

Framework:

Terraform

Ansible

Provider Cloud:

Amazon Web Services

microsoft azure

Linguaggio di programmazione:

Bash

Python

Golang

Expertise:

Installazione

Migrazione

Configurazione