OpenAI lança novos modelos de voz na API: traduz, transcreve e conversa em tempo real

A OpenAI anunciou esta quinta-feira três novos modelos de voz na sua API, pensados para criar aplicações que falam, traduzem e transcrevem conversas em tempo real. A novidade abre caminho a assistentes de voz mais naturais, capazes de manter o ritmo de uma conversa real e executar tarefas enquanto ouvem o utilizador.

O que precisas de saber
A OpenAI lançou três novos modelos de voz na sua API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.
O modelo principal usa raciocínio de classe GPT-5 e responde a pedidos mais complexos do utilizador.
A tradução em tempo real entende mais de 70 idiomas e responde em 13.
A empresa diz ter criado proteções para travar usos abusivos como spam ou fraude.

GPT-Realtime-2: uma voz mais inteligente

O GPT-Realtime-2 é o novo modelo central da família e substitui o anterior GPT-Realtime-1.5. A grande mudança está no raciocínio. A OpenAI construiu este modelo com capacidades de classe GPT-5, o que significa que o sistema consegue lidar com pedidos mais elaborados sem perder o fio à meada da conversa.

Na prática, a voz gerada continua a soar realista, mas o sistema passa a perceber melhor o contexto. Para quem usa assistentes de voz no dia a dia, isto traduz-se em respostas menos mecânicas e em diálogos que se aproximam de uma chamada normal entre duas pessoas.

Tradução e transcrição ao vivo

O segundo modelo, GPT-Realtime-Translate, foca-se em tradução simultânea. Funciona ao ritmo da conversa, sem aquela pausa estranha que existia em ferramentas semelhantes. Compreende mais de 70 línguas à entrada e devolve a tradução falada em 13 idiomas diferentes.

Já o GPT-Realtime-Whisper trata da transcrição em direto. Converte fala em texto à medida que a pessoa vai falando, útil para reuniões, entrevistas ou aulas gravadas. A OpenAI resume assim a ideia geral por trás dos três modelos: passar de simples respostas automáticas para interfaces de voz que realmente trabalham, ouvem, traduzem e agem durante uma conversa.

Fonte: OpenAI/Youtube

Para quem é isto e quanto custa

A OpenAI aponta vários setores que podem tirar partido destas ferramentas. O apoio ao cliente é o exemplo mais óbvio, mas a empresa cita também áreas como educação, media, eventos e plataformas de criadores de conteúdo.

Sobre os custos, a tradução e a transcrição funcionam num modelo de pagamento ao minuto. Já o GPT-Realtime-2 segue o sistema habitual da OpenAI e cobra por consumo de tokens. A empresa garante ainda que existem barreiras de segurança para detetar e travar conversas que violem as regras de conteúdo, evitando usos ligados a fraude ou abuso.

Gostaste deste artigo?

Recebe o resumo tech da semana com as principais novidades.

Este artigo foi útil?

Muito obrigado pelo feedback!

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui