Configurerò databricks Unity catalog, medallion layers e pipeline ETL pyspark
Data Engineer, Python Developer, automazione AI e agent AI
Selezionato da Fiverr Pro
Hamza Anwar selezionato dal team Fiverr Pro per la sua esperienza.
Selezionato per
Data engineer
Informazioni su questo servizio
Vetted Pro
La maggior parte dei progetti di data lake fallisce a Silver. I dati grezzi finiscono in Bronze e rimangono lì disordinati, non affidabili, inutilizzabili. Costruisco l'intera pipeline dal raw ingestion a uno strato Gold che i tuoi strumenti BI possono effettivamente interrogare.
Sono un Data Engineer Python con esperienza pratica in Databricks che copre l'intera stack lakehouse, architettura medallion, pipeline PySpark, Delta Lake, Unity Catalog e Databricks Workflows. Ho anche un Master in Business Intelligence, quindi capisco come devono apparire i dati a livello Gold affinché i report funzionino davvero.
Ciò che costruirò per te:
- Architettura medallion (Bronze / Silver / Gold) progettata intorno alle tue fonti di dati e alla logica di business
- Notebook PySpark documentati, testati, pronti per la produzione.
- Delta tables con partizionamento corretto, Z-ordering e vacuuming.
- Configurazione Unity Catalog con schemi, cataloghi e politiche di accesso.
- Databricks Workflows per programmare, monitorare e riprovare automaticamente le pipeline.
- Strato Gold pronto per BI che il tuo team può interrogare fin dal primo giorno.
Non sei sicuro di cosa ti serve? Inviami le tue fonti di dati e il tuo obiettivo finale, ti dirò esattamente cosa ha senso costruire.
Warehouse Platform:
Databricks
Tipo di progetto:
New Build
Clienti con cui ho lavorato
Acuity Healthcare
Built an automated healthcare executive leads pipeline in Python that scrapes Indeed, enriches contacts via Apollo, anymailfinder, verifies emails through Million Verifier, and delivers 2,000 job-matched leads per batch to Excel.
mar 2026-mag 2026
Il mio portfolio
Altri servizi della categoria Data engineer offerti da me
FAQ
Traduzione automatica.
Cos'è l'architettura medallion e ne ho bisogno?
Medallion è un approccio a livelli per organizzare i dati in un lakehouse. Bronze contiene i dati grezzi. Silver li pulisce e li conforma. Gold li aggrega in tabelle pronte per il business. Se hai più fonti di dati e hai bisogno di dati affidabili e interrogabili per report o ML, è il pattern giusto.
Ho bisogno di uno workspace Databricks già configurato?
Sì, avrai bisogno di uno workspace Databricks configurato su Azure, AWS o GCP. Lavoro all’interno del tuo ambiente così tutto rimane nel tuo account. Se non sei sicuro di cosa configurare prima, scrivimi e ti guiderò nella scelta giusta.
Quali fonti di dati puoi ingestire in Bronze?
API REST, database relazionali (PostgreSQL, MySQL, SQL Server), file di storage cloud (CSV, JSON, Parquet, Avro su S3 o ADLS), fonti streaming tramite Auto Loader, e piattaforme di terze parti. Dimmi le tue fonti e ti confermerò cosa è semplice e cosa richiede lavoro extra.
Cos'è Unity Catalog e perché è importante?
Unity Catalog è il layer di governance dei dati di Databricks. Ti permette di controllare chi può accedere a quali tabelle, tracciare la lineage dei dati e gestire gli schemi tra workspace in un unico posto. Per team con più utenti o requisiti regolamentari, vale la pena configurarlo fin dall'inizio.
Lo strato Gold può connettersi a Power BI o Tableau?
Sì. Le Delta tables di Gold si collegano nativamente a Power BI tramite il connettore Databricks, e allo stesso modo a Tableau e Looker Studio. Strutturo lo strato Gold in modo che il tuo strumento BI possa interrogarlo direttamente senza ulteriori trasformazioni.

