Sembra che questo servizio sia in sospeso
Aiuterò nell'ingegneria dei dati, nella governance e nella scoperta
India
Architetto in Data Engineering, Data Warehouse e Data Lake: Delta
Informazioni su questo servizio
Nel panorama odierno guidato dai dati, le organizzazioni richiedono agilità e scalabilità per sfruttare appieno il potenziale delle loro risorse di dati. La mia esperienza consiste nell'architettare e implementare pipeline ETL robuste e ad alte prestazioni che colmano il divario tra i tradizionali database OLTP e le architetture data lakehouse all'avanguardia, permettendo alla tua organizzazione di ottenere insight pratici sia dai carichi di lavoro analitici che operativi.
Sono specializzato nella progettazione, nello sviluppo e nel deployment di pipeline di dati su misura per l'ingestione e la trasformazione di dati batch, in tempo reale e quasi in tempo reale da database compatibili con OLTP, come MySQL, AWS Aurora e GCP Cloud SQL. Queste pipeline si integrano senza problemi con formati moderni di data lakehouse, tra cui Apache Hudi, Iceberg e Delta Lake, consentendoti di costruire una base dati unificata e scalabile.
Implementando le mie pipeline ETL, la tua organizzazione può:
- Migliorare l'accessibilità e l'usabilità dei dati sia per scopi analitici che operativi.
- Ridurre la complessità della gestione dei dati sfruttando la base dati unificata di un data lakehouse.
- Migliorare la governance e la conformità dei dati attraverso robuste linee di provenienza e audit trail.
Soluzioni di dati per il tuo edge
FAQ
Traduzione automatica.
Includi anche l'ingestione di dati da CSV, JSON, S3/GCS in Parquet?
Sì, usando una pipeline ETL Scala altamente configurabile che importa diversi tipi di file in Hudi/Delta Lakehouse. L'integrazione con Hive Metastore garantisce una scoperta dei dati senza problemi tramite Athena/Trino/Pestro.
Includi anche l'ingestione diretta da Kafka topic?
Sì, ho una pipeline ETL in Scala altamente configurabile che legge il topic Kafka come micro-batch e scrive nel formato file Lakehouse. Utilizzo Hive Metastore per fornire un catalogo dati unificato per Athena/Trino/Presto o qualsiasi motore di query SQL.
Leggi l'istanza MySQL usando JDBC o binlog?
Ho una base di codice ETL completamente configurabile che legge le tabelle MySQL usando JDBC in modo incrementale/completo o abilitando il binlog (con Debezium/Maxwell) e inviando i dati a Kafka per l'ingestione in tempo reale nel formato Lakehouse. La scoperta dei dati è abilitata tramite Hive Metastore.

