Configurerò una pipeline di analisi eventi self-hosted con caricamento di dati grezzi in bigquery
Ingegnere di dati e analisi
Informazioni su questo servizio
Se vuoi avere il controllo sui tuoi dati di analisi senza dipendere completamente da piattaforme di tracking di terze parti, posso configurare una pipeline di eventi self-hosted per te.
Questo progetto è pensato per team che vogliono una base di analisi pulita e pratica:
- tracking eventi personalizzati
- proprietà dei dati grezzi
- storage portatile
- query pronte per BigQuery
- supporto per web, backend, app o giochi
Ciò che consegnerò
- implementazione di un'API di ingestione eventi
- raccolta eventi tramite chiave API
- buffering degli eventi tramite NATS JetStream
- storage di eventi grezzi come file Parquet partizionati in Google Cloud Storage
- impostazione di tabella esterna BigQuery per query sui dati grezzi
- configurazione per il tuo primo setup di producer di eventi
- versione open source di Metabase (opzionale)
Usi tipici
- analisi prodotto per app web/mobile, estensioni browser
- sistema di tracking eventi personalizzato per backend
- fondamenta di eventi grezzi prima di dashboard o BI
- analisi di gioco
Nota importante sul scope
Questo progetto configura l'infrastruttura di ingestione eventi e analisi raw.
Non include:
- dashboard di analisi finito
- implementazione avanzata di BI
- UI completa di analisi prodotto
Requisiti del progetto
- subdomain
- progetto GCP, VM che aiuterò a configurare
Destination Platform:
Google BigQuery
•
Google Cloud Storage
Strumenti e piattaforme:
Altro
FAQ
Traduzione automatica.
Cos'è DataQuery (offerta attuale del progetto)?
DataQueryEvent è una pipeline self-hosted di tracking eventi in-app, ingestione e storage raw per analisi di prodotto, applicazioni e giochi. È un progetto open source sviluppato e mantenuto da me.
DataQuery è una piattaforma di analisi SaaS?
No. DataQuery è una pipeline di analisi self-hosted distribuita sulla tua infrastruttura.
Chi ospita il sistema?
Sei tu. La configurazione supportata di default utilizza la tua VM e i servizi Google Cloud dove necessario.
Cosa succede con l'aumentare del volume di eventi?
La configurazione di default inizia semplice, di solito su una VM, e può essere scalata successivamente man mano che il traffico aumenta. La VM cloud è facile da scalare, di solito le prestazioni di calcolo possono essere aumentate semplicemente aggiornando le impostazioni nell'interfaccia.
Dove vengono memorizzati i dati grezzi?
Gli eventi grezzi vengono scritti nello storage blob in formato Parquet (Google Cloud Storage di default).
Quali prodotti possono usare questa soluzione?
App web, siti web, app mobile, estensioni Chrome, giochi e servizi backend.
Possiedo i dati?
Sì. Il sistema è progettato attorno alla proprietà dei dati grezzi e alla portabilità.
Puoi aiutare a definire lo schema degli eventi?
Sì. Posso aiutarti a strutturare nomi di eventi, parametri e limiti dei producer.
Questo include dashboard?
No, questo progetto si concentra sull'infrastruttura di ingestione e analisi raw, ma posso distribuire una versione open source di Metabase per le tue esigenze di BI. Lo sviluppo di dashboard può essere aggiunto separatamente.
