Costruirò una pipeline personalizzata di riconoscimento e sintesi vocale con whisper e elevenlabs

S
shhahhussain
S
shhahhussain
Shah

Level 1

4,8
4,8
Alcune informazioni sono state tradotte automaticamente.

Informazioni su questo servizio

Traduzione automatica.

Descrizione:

Assicura un'elaborazione vocale accurata e in tempo reale con una pipeline personalizzata di STT/TTS. Costruirò un sistema di streaming di riconoscimento vocale e sintesi vocale usando Whisper/Deepgram per lo STT e ElevenLabs/Azure/Google per il TTS, con meccanismi di fallback per garantire affidabilità.

Ciò che ottieni:

  • Pipeline di streaming di STT/TTS completamente funzionante per i dati vocali
  • Integrazione di Whisper o Deepgram per la trascrizione
  • Integrazione di ElevenLabs, Azure o Google per un TTS di alta qualità
  • Streaming WebSocket a bassa latenza per prestazioni in tempo reale
  • Gestione degli errori e tentativi di riconnessione per garantire affidabilità

Come lavoro:

  • Discutere i requisiti (lingue, carico previsto, provider)
  • Progettare l'architettura della pipeline per l'audio in streaming
  • Implementare l'integrazione di STT/TTS nel codice backend
  • Aggiungere provider di fallback per failover e resilienza
  • Testare end-to-end con stream di esempio e metriche

Ciò di cui ho bisogno da te:

  • Lingue e accenti target per la trascrizione
  • Servizi principali e di backup preferiti per STT/TTS
  • File audio di esempio per i test
  • Modelli di utilizzo previsti (stream simultanei, traffico a picco)
  • Obiettivi e vincoli di latenza/accuratezza

Consegne:

  • Codice Python per la pipeline di STT/TTS con istruzioni di configurazione
  • Configurazione per i provider di STT e TTS scelti

Scopri di più su Shah

Shah

I build production grade Voice AI agents LiveKit Twilio Python deployed on AWS

5,0(9)

Level 1

  • DaPakistan
  • Membro dalug 2022
  • Tempo di risposta medio1 ora
  • Ultima consegna2 settimane
  • Lingue

    Inglese
I build production-grade Voice AI agents using LiveKit, Twilio, and Python. I’ve implemented real-time inbound/outbound call flows with low-latency streaming, clean turn-taking, and barge-in handling. I improve reliability by tuning VAD, handling jitter/packet loss, and adding retries plus consistent call-state. I containerize and deploy voice agents on AWS so they run stable in production with logging and monitoring.

Traduzione automatica.

Il mio portfolio

Recensioni

2 recensioni per questo servizio
4,8

(2)
(0)
(0)
(0)
(0)
Valutazione dettagliata
  • Livello di comunicazione del venditore
    5
  • Qualità della consegna
    4,5
  • Valore della consegna
    5
Ordina per
Più rilevante
  • C

    carsten_lemche

    DK

    Danimarca

    4,7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    200 USD-400 USD

    $

    1 giorno

    Tempo

    Utile?
    No
  • P

    plaglobal

    Cliente abituale

    US

    Stati Uniti

    5

    Shah is a professional and great to work with. I highly recommend him!

    100 USD-200 USD

    $

    2 giorni

    Tempo

    Utile?
    No
Recensioni

2 recensioni per questo servizio
4,8

(2)
(0)
(0)
(0)
(0)
Valutazione dettagliata
  • Livello di comunicazione del venditore
    5
  • Qualità della consegna
    4,5
  • Valore della consegna
    5
Ordina per
Più rilevante
  • C

    carsten_lemche

    DK

    Danimarca

    4,7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    200 USD-400 USD

    $

    1 giorno

    Tempo

    Utile?
    No
  • P

    plaglobal

    Cliente abituale

    US

    Stati Uniti

    5

    Shah is a professional and great to work with. I highly recommend him!

    100 USD-200 USD

    $

    2 giorni

    Tempo

    Utile?
    No