Costruirò una pipeline ETL automatizzata con airflow e postgresql
Ingegnere dei dati
Informazioni su questo servizio
Smetti di copiare manualmente i dati tra le fonti. Creo pipeline ETL automatizzate che prelevano dati da API o siti web, li puliscono e validano, e li caricano nel tuo database senza lavoro manuale dopo la configurazione.
Quello che ottieni:
- Dati prelevati dalla tua fonte o API o sito web
- Pulizia e validazione prima che i dati tocchino il tuo database
- Archiviazione in PostgreSQL (o nel database SQL che preferisci)
- Opzionale: esecuzioni programmate con Apache Airflow (giornaliero/settimanalmente/personalizzato)
- Opzionale: tracciamento completo della cronologia, non solo lo snapshot più recente
- Opzionale: notifiche automatiche (Telegram/email) quando arrivano nuovi dati
Recentemente ho costruito una pipeline in stile produzione su questa stack esatta Airflow, PostgreSQL, Docker, prelevando dati da più fonti, normalizzandoli in uno schema pulito e tracciando la cronologia di ogni record. Condividerò il repo GitHub così puoi valutare la qualità del codice prima di ordinare.
Ogni pipeline è costruita attorno alla tua vera fonte di dati e al tuo database, non è un modello generico con il tuo nome incollato sopra.
Scrivimi la tua fonte di dati e il database di destinazione prima di ordinare, così posso confermare scope e tempistiche.
Tecnologia:
Python
•
SQL
•
Apache Airflow

