Costruirò un data lake AWS e una pipeline ETL usando pyspark
Data Engineer cloud che costruisce pipeline ETL scalabili
Informazioni su questo servizio
Come Data Engineer, progetterò architetture robuste native del cloud e pipeline ETL scalabili. Che si tratti di elaborare log ad alto volume o di costruire Medallion Data Lakes, fornisco soluzioni pulite e ottimizzate.
️ Cosa offro:
- Pipeline ETL End-to-End: Estrazione, trasformazione e caricamento automatizzati dei dati usando Python e PySpark.
- Data Lake nel cloud: Architettura di Medallion Data Lakes senza server (Bronze, Silver, Gold) su AWS (S3, Glue, Athena).
- Architettura di database: Progettazione di database relazionali (3NF) e ottimizzazione di query SQL complesse (CTE, funzioni finestra) in PostgreSQL.
- Ottimizzazione delle prestazioni: Riduzione dei tempi di elaborazione dei dati e abbattimento dei costi di storage usando formati come Apache Parquet.
Stack tecnologico: AWS (S3, Glue, Athena) | PySpark | Python | PostgreSQL | SQL avanzato | Git/GitHub
Perché scegliermi? Scrivo codice pronto per la produzione, garantisco design scalabili e seguo rigorosamente le best practice di data engineering.
Contattami prima di ordinare per discutere nel dettaglio il tuo progetto!
Il mio portfolio
FAQ
Traduzione automatica.
Fornisci diagrammi di architettura prima di iniziare il progetto?
Sì! Per i pacchetti Standard e Premium, fornisco un diagramma completo di architettura cloud di alto livello (ad esempio, flusso AWS S3, Glue, Athena) prima di scrivere il codice, per assicurarci di essere sulla stessa lunghezza d'onda.
Quali tecnologie usi per la trasformazione dei dati?
Principalmente uso PySpark (tramite AWS Glue) per le trasformazioni di big data e SQL avanzato (PostgreSQL) per motori di dati relazionali, garantendo alte prestazioni e scalabilità.

