Em meio a disputas com o Google e a debates sobre a regulamentação do uso de inteligência artificial, a empresa OpenAI lançou na segunda-feira (13) o seu mais novo modelo de linguagem de inteligência artificial, o GPT- 4o. O novo modelo possui uma grande atualização em relação ao seu antecessor: ele pode processar não somente texto, mas também imagens e áudio em tempo real.
A letra “o” do nome do robô vem de omni, que do latim significa “tudo”, justamente pela capacidade de processar e combinar texto, imagem e áudio para gerar uma variedade de resultados diferentes. Mas não só isso: o GPT-4o é mais rápido do que sua versão anterior, conseguindo gerar respostas em áudio a uma velocidade de 320 milissegundos. Em comparação, os modos de voz do GPT-3.5 e GPT-4 demoravam 2,8 e 5,4 segundos, respectivamente.
Além disso, o processamento da resposta era dividido entre os modelos. Por exemplo, enquanto uma versão mais simples, como o GPT 3.5, transcrevia o áudio para texto, o GPT-4 recebia essa transcrição e a inseria com prompts de comando. Um terceiro modelo, então, finalmente converteria o texto em áudio, dando a resposta para a pessoa.
Além de demorado, esse processo todo ainda poderia perder informações pelo caminho. O novo modelo do GPT-4o mudou esse arranjo. Agora, ele processa todas as informações, permitindo com que as respostas sejam mais rápidas e naturais. Para completar, o novo modelo também virá com um upgrade de memória, para que ele se lembre e aprenda com as conversas anteriores.
Tradução
O novo GPT tem uma função similar a do Google Lens: você tira uma foto de algo que esta em outro idioma (um cardápio ou uma placa de trânsito, por exemplo), e o programa consegue traduzir o que está escrito.
Há também uma ferramenta de tradução simultânea. Basta você informar para o bot quais os idiomas que irão participar da conversa e ele vai entrar em ação para intermediar o papo, no melhor estilo intérprete das Nações Unidas.
Essa capacidade de resposta, aliás, veio com uma atualização intrigante. O modelo foi treinado para perceber variações de emoção no rosto e na fala das pessoas, modulando as respostas com tons emocionais dependendo do contexto e das emoções da própria pessoa. É como se a gente trocasse uma ideia com o C-3PO de Star Wars (ou com a Samantha de Her).
Você pode ainda pedir ao novo modelo para cantar, resolver problemas matemáticos e de programação, contar histórias e por aí vai. E, diferentemente dos bots anteriores da OpenAI, o GPT-4o será gratuito para todo mundo.
Desde o anúncio, a empresa começou a liberar aos poucos o acesso à ferramenta. Por ora, apenas os usuários da versão Plus (que é paga) estão testando o robô. A OpenAI deve disponibilizar para todos os usuários nas próximas semanas.
A versão gratuita, porém, terá um limite diário de comandos que ainda não foi informado pela OpenAI. O que se sabe até aqui é que os usuários do Plus terão um limite cinco vezes maior. E os que usam as versões Equipe e Corporativo terão limites ainda maiores.
O GPT-4o virá com suporte para mais de 50 línguas, e caso você queira conferir todas as informações e as novas ferramentas do modelo, acesse este link.
Fonte: abril