Farò progetti con grandi modelli linguistici
Machine Learning, Finanza Quantitativa, Dati
Informazioni su questo servizio
Allenare modelli linguistici personalizzati da zero o perfezionare open-weight LLMs sui tuoi dati. Costruisco modelli transformer in stile GPT da zero usando PyTorch, da demo con 10M parametri fino a modelli con 50M parametri. Perfeziono anche modelli esistenti come Llama, Phi-3 e Mistral sul tuo dataset usando LoRA/QLoRA.
Ciò che ottieni:
- Pesature del modello completamente addestrate e tokenizer personalizzati sui tuoi dati
- Codice sorgente completo con commenti per l'addestramento e l'inferenza
- Script per la generazione di testo + istruzioni di setup
- Log di addestramento, curve di perdita e output di esempio
- Diritti commerciali completi
Gestisco preprocessing dei dati, training del tokenizer, architettura del modello e pipeline di addestramento. Tu fornisci il tuo dataset di testo in formato .txt, .csv o PDF, oppure utilizzerò dati open source da HuggingFace, Kaggle e altri.
Importante: i modelli con meno di 50M di parametri sono pensati per demo, uso educativo e apprendimento dello stile specifico dei tuoi dati. Mostrano come funzionano gli LLM, ma non avranno una conoscenza ampia come ChatGPT.
Expertise:
Apprendimento delle funzioni
•
Analisi predittiva
•
Altro
Framework:
Scikit-learn
•
keras
•
PyTorch
•
Panda
Tipo di dati:
Testo
Linguaggio di programmazione:
Python
•
SQL
•
Colab
•
NoSQL
Il mio portfolio
Altri servizi della categoria Data science e ML offerti da me
FAQ
Traduzione automatica.
Cosa ricevo esattamente?
Ottieni: 1) pesi del modello addestrato .safetensors 2) tokenizer personalizzato 3) codice sorgente Python completo per training + inference 4) Requirements.txt e guida all'installazione 5) log di training con grafici di loss/perplessità 6) esempi di generazioni di testo 7) diritti commerciali completi.
Fornisci i dati di addestramento?
Se hai un dataset personalizzato, puoi fornirlo. Mi occupo di pulizia, formattazione, tokenizzazione e training. Formati accettati: .txt, .csv, .json o PDF. Se invece non ne hai, a tua scelta, userò dati open source da siti come HuggingFace, Kaggle e altri per addestrare il nostro modello.
Il mio modello da 10M o 50M sarà come ChatGPT?
No. I modelli sotto i 100M di parametri sono per demo, proof-of-concept e per imparare stili o schemi specifici dai tuoi dati. Genereranno testo nello stile del tuo dominio, ma non avranno conoscenza ampia, capacità di ragionamento o capacità di seguire istruzioni come ChatGPT. Per quello ti servono modelli da 7B+ con dataset enormi.
Quanti dati devo fornire?
Per modelli da 10M: 10MB-100MB di testo. Per modelli da 50M: 50MB-500MB di testo. Più dati = risultati migliori. 1MB ≈ 200k token. Se non sei sicuro, inviami il tuo dataset e controllerò se è sufficiente prima di iniziare.
