Os assistentes de IA da OmniTech IA podem operar em três modos distintos de voz.Documentation Index
Fetch the complete documentation index at: https://doc.omnitechsolucoes.com.br/llms.txt
Use this file to discover all available pages before exploring further.
Cada modo define como a fala do usuário é interpretada e como a resposta do assistente é gerada.
A escolha correta do modo pode melhorar o tempo de resposta, a naturalidade da conversa e a experiência geral da chamada.
1. Pipeline
| Nome na interface | Pipeline |
| Como funciona | Fala → Texto (STT) → Modelo de IA (LLM) → Voz (TTS) |
| Latência | ~800 – 1500 ms (varia conforme idioma e modelo) |
| Ideal para | Raciocínio complexo, prompts dinâmicos, respostas longas |
É um método consolidado que oferece máxima flexibilidade e controle:
- Suporta todas as vozes disponíveis, incluindo vozes personalizadas e clonadas.
- Ideal para respostas longas, explicativas ou em formato de parágrafo.
- Permite que o modelo utilize variáveis e contexto anterior de forma precisa.
Quando escolher Pipeline
- Quando são necessárias respostas ricas e com múltiplas frases (ex.: suporte técnico, explicações detalhadas).
- Quando o assistente precisa raciocinar sobre dados estruturados ou prompts complexos.
- Quando é essencial ter controle total da voz utilizada (voz de marca ou clonada).
2. Speech-to-Speech (Multimodal)
| Nome na interface | Speech-to-Speech |
| Como funciona | Geração direta fala → fala, sem texto intermediário |
| Latência | ~300 – 600 ms (ultra baixa) |
| Ideal para | Conversas naturais, respostas rápidas e reativas |
Um modelo multimodal escuta e responde diretamente em áudio, criando uma experiência mais fluida:
- Respostas quase instantâneas, com excelente tempo de reação.
- Entonação mais natural, incluindo pausas e variações de fala.
- Suporte atual a um conjunto limitado de vozes, que é ampliado continuamente.
Quando escolher Speech-to-Speech
- Quando a conversa precisa ser rápida e dinâmica (vendas, confirmações, agendamentos).
- Quando as respostas são curtas e objetivas.
- Quando não há necessidade de voz personalizada ou clonada.
O modo Speech-to-Speech evolui rapidamente.
Se você precisa de baixa latência e voz clonada, utilize o modo Dualplex.
Se você precisa de baixa latência e voz clonada, utilize o modo Dualplex.
3. Dualplex (Beta)
| Nome na interface | Dualplex |
| Como funciona | Modelo multimodal + LLM com saída de voz via ElevenLabs |
| Latência | Baixa (varia conforme voz e modelo) |
| Ideal para | Respostas rápidas, naturais e com vozes premium ou de marca (clonadas) |
O assistente entende a fala do usuário em tempo real e renderiza a resposta final com alta fidelidade de áudio.
- Alternância de fala quase instantânea, semelhante ao Speech-to-Speech.
- Acesso à biblioteca de vozes do ElevenLabs, incluindo vozes clonadas.
- Ideal para respostas curtas e médias, com entonação expressiva.
- Modo recomendado para a maioria dos casos de uso atuais (em Beta).
Quando escolher Dualplex
- Quando você precisa de velocidade e voz personalizada ou de marca.
- Quando deseja respostas expressivas sem abrir mão da identidade sonora.
- Quando está confortável em utilizar um recurso avançado ainda em Beta.
Alternando entre os modos
Você pode selecionar o modo de operação de cada assistente em:Assistente → Configurações → Motor de Voz. Recomenda-se testar os três modos para encontrar o melhor equilíbrio entre velocidade, qualidade de voz e experiência do usuário para o seu cenário.
Dica prática:
Grave chamadas de teste usando modos diferentes e compare a latência percebida e o engajamento do usuário para definir o melhor fluxo.