La nostra agenzia costruirà un dataset di training per AI con raccolta, pulizia e annotazione

Sviluppatore di giochi e intelligenza artificiale
Selezionato da Fiverr Pro
Gameloops selezionato dal team Fiverr Pro per la sua esperienza.
Selezionato per
Sviluppo videogiochi
Informazioni su questo servizio
La maggior parte dei progetti di fine-tuning di AI fallisce prima ancora che inizi l'addestramento. Il dataset è incompleto, etichettato in modo incoerente o formattato in modo sbagliato per il modello. Gestisco l'intera pipeline dei dati, dalla raccolta grezza alla consegna pronta per l'addestramento, così non devi mai toccare un foglio di calcolo.
Ho creato e ottimizzato io stesso LLMs.
Ciò che ottieni
Raccolta di dati grezzi tramite web scraping, curatela di dataset pubblici o generazione sintetica con GPT. Pulizia dei dati: deduplicazione, normalizzazione, rimozione di campioni di bassa qualità e gestione dei campi mancanti. Annotazione professionale formattata per il tuo compito specifico: classificazione, NER, coppie istruzione-risposta o schema personalizzato. Validazione del dataset: controlli di coerenza delle etichette, analisi dell'equilibrio delle classi e divisione di valutazione riservata. Scheda completa dei dati che documenta schema, definizioni delle etichette, conteggio dei campioni e statistiche di copertura. Consegna finale nel formato richiesto: JSONL, CSV, pronto all'uso.
Perché lavorare con me
Ho gestito pipeline di fine-tuning con QLoRA e Unsloth. So cosa fa sì che i dati di addestramento producano un modello ben comportato rispetto a uno che overfitta o collassa. Non stai assumendo un etichettatore. Stai assumendo qualcuno che capisce cosa succede dopo che i dati sono stati consegnati.
Tecnologia:
Excel
•
Fogli Google
•
Microsoft Word
•
Quaderno jupyter
Tipo di dati:
Numerico
•
Stringa
•
Data
•
Testo libero
•
Personalizzato

