Optimus PlatformMedia Processing

Audio Processor

Microsserviço de processamento de áudio com multi-provider STT/TTS, processamento assíncrono via Celery, storage MinIO e fallback inteligente entre providers.

Multi-ProviderGroq WhisperElevenLabsCeleryMinIO8 Formatos

O Desafio: Áudio em Chatbots Enterprise

🎤 Voice Notes no WhatsApp

Usuários de WhatsApp adoram enviar áudios. Em alguns segmentos (clínicas, mais de 40% das mensagens são áudio.

•Áudios longos (1-3 minutos) com múltiplas informações
•Sotaques regionais, ruído de fundo, gírias
•Expectativa de resposta em áudio também

⚠️ Problemas Comuns

❌Single provider- se cair, sistema para
❌Processamento síncrono- bloqueia a thread
❌Sem fallback- erro = mensagem perdida
❌Custo fixo- mesmo provider pra tudo
❌Formatos limitados- só MP3/WAV

Arquitetura Multi-Provider

┌─────────────────────────────────────────────────────────────────────────┐
│                      Audio Processor Architecture                        │
└─────────────────────────────────────────────────────────────────────────┘

   WhatsApp Voice Note          Web/Mobile Audio           Text Response
           │                          │                         │
           ▼                          ▼                         ▼
   ┌───────────────────────────────────────────────────────────────────┐
   │                      Audio Processor (Port 8002)                  │
   │  ┌─────────────────────────────────────────────────────────────┐  │
   │  │                    FastAPI + Celery                         │  │
   │  └─────────────────────────────────────────────────────────────┘  │
   └───────────────────────────────────────────────────────────────────┘
                    │                               │
         ┌──────────┴──────────┐         ┌─────────┴─────────┐
         ▼                     ▼         ▼                   ▼
   ┌───────────┐         ┌───────────┐ ┌───────────┐   ┌───────────┐
   │    STT    │         │    STT    │ │    TTS    │   │    TTS    │
   │  Primary  │         │  Fallback │ │  Primary  │   │  Fallback │
   │   Groq    │         │  OpenAI   │ │ElevenLabs │   │  Edge TTS │
   │ Whisper   │         │  Whisper  │ │           │   │           │
   └───────────┘         └───────────┘ └───────────┘   └───────────┘
         │                     │             │               │
         └──────────┬──────────┘             └───────┬───────┘
                    │                                │
                    ▼                                ▼
            ┌─────────────┐                  ┌─────────────┐
            │   MinIO     │                  │    Redis    │
            │   Storage   │                  │   + Celery  │
            │ audio-files │                  │   Workers   │
            └─────────────┘                  └─────────────┘

🎤 STT (Speech-to-Text)

Groq WhisperPrimary

Whisper Large v3 via Groq API. Extremamente rápido (hardware dedicado), excelente para português brasileiro.

OpenAI WhisperFallback

API oficial da OpenAI. Mais lento que Groq, mas extremamente confiável como backup.

Google / Azure / AWSDisponível

Providers adicionais configuráveis para casos específicos ou requisitos de compliance.

🔊 TTS (Text-to-Speech)

ElevenLabsPrimary

Model: eleven_multilingual_v2. Vozes ultra-realistas, excelente entonação em português.

OpenAI TTSFallback

Model: tts-1-hd, Voice: shimmer. Qualidade alta, bom backup quando ElevenLabs indisponível.

Edge TTSFree Tier

Voice: pt-BR-FranciscaNeural. Gratuito (Microsoft Edge), usado para desenvolvimento/testes ou fallback de emergência.

⚡ Processamento Assíncrono com Celery

Áudio é pesado. Um voice note de 2 minutos pode levar 5-10 segundos para transcrever. Processar sincronamente bloquearia o servidor. A solução:Celery workers dedicados.

📥

1. Recebe Áudio

API recebe o arquivo de áudio (qualquer formato), valida e salva no MinIO. Retorna job_id imediatamente.

⚙️

2. Celery Processa

Worker pega da fila, baixa do MinIO, converte formato se necessário, envia pro provider STT, salva resultado.

📤

3. Callback/Poll

Resultado disponível via polling (GET /status/job_id) ou webhook callback quando configurado.

Fluxo de Transcrição

# 1. Cliente envia áudio
POST /api/v1/transcribe
Content-Type: multipart/form-data
file: voice_note.ogg

# Response imediata (~50ms)
{
  "job_id": "abc123",
  "status": "queued",
  "estimated_seconds": 8
}

# 2. Celery worker processa em background
[Worker] Downloading from MinIO: voice_note.ogg
[Worker] Converting OGG → WAV (ffmpeg)
[Worker] Sending to Groq Whisper...
[Worker] Transcription complete: "Oi, quero marcar uma consulta..." "Hi, I want to schedule an appointment..."
[Worker] Saving result to Redis

# 3. Cliente verifica status
GET /api/v1/status/abc123

{
  "job_id": "abc123",
  "status": "completed",
  "transcription": "Hi, I want to schedule an appointment for tomorrow at 10am",
  "duration_seconds": 12.5,
  "provider": "groq",
  "confidence": 0.97
}

🎵 8 Formatos de Áudio Suportados

WhatsApp usa OGG/OPUS. Navegadores usam WebM. iPhones usam M4A. O Audio Processor aceita qualquer um e converte internamente via FFmpeg.

🎵

MP3

Mais comum

🎵

WAV

Sem compressão

🎵

OGG

WhatsApp Android

🎵

OPUS

WhatsApp codec

🎵

M4A

iPhone/AAC

🎵

FLAC

Lossless

🎵

AAC

Alta qualidade

🎵

WMA

Windows legacy

Conversão Automática

O sistema detecta o formato automaticamente (magic bytes, não extensão). Se o provider STT não suporta o formato, converte para WAV via FFmpeg antes de enviar. Tudo transparente para o chamador.

📦 Storage com MinIO

Por que MinIO?

✓S3-compatible- mesma API do AWS S3, sem vendor lock
✓Self-hosted- dados ficam no seu controle
✓High performance- otimizado para arquivos médios
✓Web console- UI para debug e gestão

Configuração

MINIO_ENDPOINT=minio:9000
MINIO_ACCESS_KEY=minioadmin
MINIO_SECRET_KEY=*****
MINIO_BUCKET=audio-files
MINIO_USE_SSL=false

# Console de gestão
# http://localhost:9003

Lifecycle do Arquivo

📥

Upload

Cliente envia

💾

Store

MinIO salva

⚙️

Process

Worker baixa, processa

🗑️

Cleanup

TTL expira, deleta

🔄 Fallback Inteligente

Providers de IA falham. Groq pode ter pico de latência, ElevenLabs pode estar em manutenção. O sistema tenta automaticamente o próximo provider na cadeia de fallback.

# Cadeia de fallback STT
TRANSCRIPTION_SERVICE=groq  # Primary

try:
    result = groq_whisper.transcribe(audio)
except (Timeout, RateLimitError, ServiceUnavailable):
    logger.warning("Groq failed, falling back to OpenAI")
    result = openai_whisper.transcribe(audio)
except Exception:
    logger.error("All STT providers failed")
    raise AudioProcessingError("Transcription unavailable")

# Cadeia de fallback TTS
TTS_SERVICE=elevenlabs  # Primary

try:
    audio = elevenlabs.synthesize(text)
except (Timeout, QuotaExceeded):
    logger.warning("ElevenLabs failed, falling back to OpenAI")
    audio = openai_tts.synthesize(text)
except Exception:
    logger.warning("Paid TTS failed, using free Edge TTS")
    audio = edge_tts.synthesize(text)  # Always available

⏱️

Timeout Detection

Se provider não responde em 30s, assume falha e tenta próximo.

💰

Quota Handling

Rate limit ou quota excedida? Fallback automático sem perder a mensagem.

🆓

Free Tier Backup

Edge TTS é gratuito e sempre disponível como último recurso.

🏢 Configuração por Tenant

Cada tenant pode ter configurações de TTS personalizadas: voz diferente, provider preferido, velocidade de fala. Armazenado no Memory Engine e carregado em runtime.

Exemplo: Clínica Dental

{
  "tenant_id": "clinica_sp",
  "tts_config": {
    "provider": "elevenlabs",
    "voice_id": "mPDAoQyGzxBSkE0OAOKw",
    "model": "eleven_multilingual_v2",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }
}

Exemplo: E-commerce

{
  "tenant_id": "loja_xyz",
  "tts_config": {
    "provider": "openai",
    "voice": "shimmer",
    "model": "tts-1-hd",
    "speed": 1.1,
    "response_format": "opus"
  }
}

📱 Integração com WhatsApp

┌─────────────────────────────────────────────────────────────────────────┐
│                    WhatsApp Voice Note Flow                              │
└─────────────────────────────────────────────────────────────────────────┘

  Cliente envia áudio          Audio Processor           AI Engine
         │                           │                       │
         ▼                           │                       │
   Evolution API                     │                       │
         │                           │                       │
         ▼                           │                       │
   WhatsApp Integration              │                       │
         │                           │                       │
         │  POST /transcribe         │                       │
         │──────────────────────────▶│                       │
         │                           │                       │
         │  { job_id: "abc" }        │                       │
         │◀──────────────────────────│                       │
         │                           │                       │
         │       [Celery processa]   │                       │
         │                           │                       │
         │  GET /status/abc          │                       │
         │──────────────────────────▶│                       │
         │                           │                       │
         │  { text: "I want..." }    │                       │
         │◀──────────────────────────│                       │
         │                           │                       │
         │  POST /chat (text)        │                       │
         │───────────────────────────────────────────────────▶
         │                           │                       │
         │                           │  { response: "..." }  │
         │◀───────────────────────────────────────────────────
         │                           │                       │
         │  POST /synthesize         │                       │
         │──────────────────────────▶│                       │
         │                           │                       │
         │  { audio_url: "..." }     │                       │
         │◀──────────────────────────│                       │
         │                           │                       │
         ▼                           │                       │
   Evolution API                     │                       │
         │                           │                       │
         ▼                           │                       │
   Cliente recebe áudio              │                       │

Modo de Resposta Configurável

audio

Sempre responde em áudio. Ideal para usuários que preferem ouvir.

text

Sempre responde em texto. Economia de custo de TTS.

match

Responde no mesmo formato que recebeu (áudio → áudio, texto → texto).

Resultados

99.5%

Uptime Transcrição

Com fallback multi-provider

<3s

Transcrição (1min áudio)

Groq Whisper P95

Formatos Suportados

Conversão automática

Providers TTS

Incluindo free tier

Stack Técnico

Framework

FastAPI + Uvicorn

Task Queue

Celery + Redis

Storage

MinIO (S3-compatible)

Audio Processing

FFmpeg

STT Primary

Groq Whisper Large v3

TTS Primary

ElevenLabs Multilingual v2

TTS Backup

OpenAI TTS-1-HD

TTS Free

Edge TTS (Microsoft)

Precisa de processamento de áudio?

STT, TTS, conversão de formatos, integração com chatbots - tenho experiência com os desafios de produção.

Entrar em Contato