Costruirò pipeline di dati scalabili usando dagster, AWS, postgresql e redshift
Informazioni su questo servizio
Stai cercando un Data Engineer affidabile per costruire pipeline di dati scalabili e di livello produzione?
Sono specializzato nella creazione di piattaforme dati moderne usando:
- Dagster (orchestrazione di workflow & pipeline basate su asset)
- PostgreSQL (database di origine e metadati)
- Amazon S3 (storage di data lake)
- Amazon Redshift (magazzino analitico)
- Python (sviluppo ETL/ELT)
Cosa Posso Fare Per Te
Costruire pipeline ETL/ELT end-to-end
Progettare asset e job di Dagster
Caricare dati da API / DBs S3 Redshift
Implementare pipeline incrementali (CDC, watermarking)
Ottimizzare le prestazioni per milioni di record
Gestire l'evoluzione dello schema & la validazione dei dati
Impostare partizionamento dei dati (giornaliero/ora)
Creare architettura di data lake basata su S3
Debuggare & correggere pipeline esistenti
Le Mie Competenze Includono
- Pipeline multi-asset di Dagster
- Migrazione da PostgreSQL a Redshift
- Partizionamento Parquet su S3
- Carichi incrementali (senza duplicati)
- Ingestione di grandi volumi di dati (milioni di righe)
- Qualità e validazione dei dati
- Test unitari e di integrazione
- Gestione errori & tentativi di ripetizione
Approccio Pronto per la Produzione
Seguo le migliori pratiche del settore:
- Struttura modulare del codice
- Logging & monitoraggio
- Gestione di retry & fallimenti
- Pipeline idempotenti
- Progettazione CI/CD
Provider Cloud:
Amazon Web Services
Expertise:
Installazione
•
Distribuzione
•
Migrazione
•
Debug
•
Sviluppo
Framework:
Terraform
•
Ansible

