Costruirò una pipeline ETL con python, airflow e dbt
Data Engineer, ETL Pipelines, Python, Airflow e dbt
Informazioni su questo servizio
I tuoi dati sono sparsi tra diverse fonti senza una pipeline affidabile per spostarli, pulirli e consegnarli dove serve?
Costruisco pipeline ETL e ELT pronte per la produzione usando Python, Apache Airflow e dbt, automatizzate, testate e documentate, così il tuo team può mantenerle senza il mio aiuto.
COSA OTTIENI:
- Pipeline ETL/ELT personalizzata in base alle tue fonti di dati
- DAG di Apache Airflow con pianificazione e logica di retry
- Modelli di trasformazione dbt con test di qualità dei dati
- Pattern di caricamento incrementale e completo
- Codice versionato con Git e documentato
- Consegna su Snowflake, BigQuery, Redshift o Postgres
PERCHÉ SCEGLIERE ME:
Data Engineer certificato Microsoft. Ho costruito Medallion Lakehouse su Microsoft Fabric. Competente in Python, SQL, PySpark, Airflow, dbt, Kafka, Snowflake e BigQuery.
Ogni pipeline che consegno funziona in produzione, non solo in un notebook.
Scrivimi prima di ordinare così posso confermare che il tuo stack è compatibile.
FAQ
Traduzione automatica.
A quali fonti di dati puoi collegarti?
Posso costruire pipeline ETL da REST API, PostgreSQL, MySQL, MongoDB, file flat (CSV, JSON, Parquet), Google Sheets, S3 e la maggior parte delle piattaforme SaaS. Se hai una fonte specifica, scrivimi prima di ordinare.
Quali data warehouse supporti?
Consegno su Snowflake, Google BigQuery, Amazon Redshift, PostgreSQL, Microsoft Fabric e Azure Synapse. Posso anche targettizzare formati Delta Lake o Apache Iceberg su cloud storage.
Usi Apache Airflow per l'orchestrazione?
Sì. Costruisco DAG di Airflow con pianificazione, logica di retry, alert e gestione delle dipendenze. Posso usare anche Prefect se preferisci uno strumento di orchestrazione più leggero.
Cos'è dbt e ne ho bisogno?
dbt (data build tool) gestisce il livello di trasformazione nel tuo pipeline ELT usando SQL. Aggiunge test di qualità dei dati, auto-documentazione e controllo di versione. Lo consiglio per qualsiasi progetto basato su warehouse.
La pipeline verrà eseguita automaticamente secondo una pianificazione?
Sì. Tutte le pipeline includono pianificazione automatica tramite Airflow o cron. Scegli la frequenza — oraria, giornaliera o triggerata da eventi — e la configuro di conseguenza.
Fornite documentazione?
Sì. Ogni consegna include un README, documentazione generata automaticamente da dbt e commenti inline nel codice. Potrai capire, estendere e mantenere la pipeline senza il mio aiuto.
Puoi lavorare con il mio stack di dati esistente?
Sì. Inviami il tuo stack attuale prima di ordinare e confermerò la compatibilità. Ho lavorato con ambienti AWS, GCP e Azure e posso integrarmi nella maggior parte delle configurazioni esistenti.
Gestisci pipeline di streaming in tempo reale?
Sì. Il pacchetto Premium include Apache Kafka per pipeline in tempo reale basate su eventi. Se hai bisogno di streaming su scala più piccola, scrivimi e ti fornirò un preventivo.
Cosa ti serve da me per iniziare?
Ho bisogno delle tue fonti di dati, del warehouse di destinazione, della logica di trasformazione o delle regole di business e delle credenziali di accesso. Ti fornirò una checklist dopo aver effettuato l'ordine.
Il codice è sotto controllo di versione?
Sì. Tutto il codice viene consegnato tramite un repository Git con una cronologia di commit pulita. Seguo le migliori pratiche di ingegneria del software — niente zip di script sconnessi.

