A OpenAI anunciou esta quinta-feira três novos modelos de voz na sua API, pensados para criar aplicações que falam, traduzem e transcrevem conversas em tempo real. A novidade abre caminho a assistentes de voz mais naturais, capazes de manter o ritmo de uma conversa real e executar tarefas enquanto ouvem o utilizador.
GPT-Realtime-2: uma voz mais inteligente
O GPT-Realtime-2 é o novo modelo central da família e substitui o anterior GPT-Realtime-1.5. A grande mudança está no raciocínio. A OpenAI construiu este modelo com capacidades de classe GPT-5, o que significa que o sistema consegue lidar com pedidos mais elaborados sem perder o fio à meada da conversa.
Na prática, a voz gerada continua a soar realista, mas o sistema passa a perceber melhor o contexto. Para quem usa assistentes de voz no dia a dia, isto traduz-se em respostas menos mecânicas e em diálogos que se aproximam de uma chamada normal entre duas pessoas.
Tradução e transcrição ao vivo
O segundo modelo, GPT-Realtime-Translate, foca-se em tradução simultânea. Funciona ao ritmo da conversa, sem aquela pausa estranha que existia em ferramentas semelhantes. Compreende mais de 70 línguas à entrada e devolve a tradução falada em 13 idiomas diferentes.
Já o GPT-Realtime-Whisper trata da transcrição em direto. Converte fala em texto à medida que a pessoa vai falando, útil para reuniões, entrevistas ou aulas gravadas. A OpenAI resume assim a ideia geral por trás dos três modelos: passar de simples respostas automáticas para interfaces de voz que realmente trabalham, ouvem, traduzem e agem durante uma conversa.
Para quem é isto e quanto custa
A OpenAI aponta vários setores que podem tirar partido destas ferramentas. O apoio ao cliente é o exemplo mais óbvio, mas a empresa cita também áreas como educação, media, eventos e plataformas de criadores de conteúdo.
Sobre os custos, a tradução e a transcrição funcionam num modelo de pagamento ao minuto. Já o GPT-Realtime-2 segue o sistema habitual da OpenAI e cobra por consumo de tokens. A empresa garante ainda que existem barreiras de segurança para detetar e travar conversas que violem as regras de conteúdo, evitando usos ligados a fraude ou abuso.
Gostaste deste artigo?
Recebe o resumo tech da semana com as principais novidades.
Este artigo foi útil?
Redator de tecnologia no Minuto Digital. Especializado em smartphones, inteligência artificial e inovação digital. Explico as últimas novidades tech de forma simples, clara e direta.
























