Costruirò pipeline ETL spark per elaborazione batch e flussi di lavoro big data
Soluzioni scalabili, codice pulito e comunicazione chiara
Informazioni su questo servizio
Progetterò e svilupperò pipeline Spark ETL scalabili per l'elaborazione batch dei dati, trasformazioni e flussi di lavoro di grande volume.
Questo servizio è ideale per aziende che devono elaborare dati da file, database, API o altre fonti strutturate in modo affidabile e facilmente manutenibile. Che tu abbia bisogno di una nuova pipeline batch da zero o di miglioramenti a un lavoro esistente, posso aiutarti a creare una soluzione pulita e orientata alla produzione.
Mi concentro su risultati pratici di data engineering come ingestione, trasformazione, convalida, aggregazione e consegna in dataset pronti per l'analisi o sistemi downstream.
Ciò che può includere questo servizio
- Sviluppo di pipeline ETL Spark o PySpark
- elaborazione batch per grandi dataset
- inserimento dati da CSV, JSON, Parquet, API e database
- pulizia, normalizzazione e trasformazione dei dati
- join, aggregazioni, filtri e logica di arricchimento
- output su file, data warehouse o database
- ottimizzazione e refactoring di lavori Spark esistenti
- registrazione strutturata e organizzazione del codice manutenibile
- documentazione di base e supporto al passaggio di consegne
Tecnologia:
Apache Spark
•
BigQuery
•
Python
•
Scala
•
SQL
•
Apache Airflow
FAQ
Traduzione automatica.
Puoi lavorare con un codice Spark esistente?
Sì. Posso migliorare, rifattorizzare, debuggare o estendere una pipeline Spark esistente.
Può includere PySpark?
Sì. PySpark è completamente supportato.
Puoi aiutare con miglioramenti delle prestazioni?
Sì. Se il tuo lavoro attuale è lento o difficile da mantenere, posso ottimizzare la struttura della pipeline e il flusso di elaborazione.
Gestisci anche il deployment completo?
Questo servizio si concentra principalmente sullo sviluppo, ma il supporto al deployment può essere discusso a seconda dell'ambiente.
