Sophia @princesinhamt
Tecnologia

A nova revolução tecnológica: Conheça o dispositivo vestível de IA multimodal codificado pelo GPT-4

2024 word3
Grupo do Whatsapp Cuiabá

O Projeto Ring combina modelos de linguagem e imagem em um dispositivo vestível de IA que observa o mundo por meio de uma câmera e comenta sobre ele com uma voz gerada por IA.

A forma mais simples de descrever o Projeto Ring é como uma versão vestível do Google Lens com controles de voz. Segundo a desenvolvedora Mina Fahmi, o projeto tem como objetivo “demonstrar interações de baixo atrito que misturam informações físicas e digitais entre humanos e IA”.

Para isso, Fahmi construiu um minicomputador de pulso com uma câmera e um joystick que pode analisar visualmente o ambiente em real usando um modelo de imagem para texto chamado Replicate, descrevê-lo em texto e fazer comentários sobre ele por meio do ChatGPT.

O texto é convertido em fala usando o serviço de texto para fala da Eleven Labs, que é então transmitido para fones de ouvido de condução óssea por meio de um Android. Os fones de ouvido possuem um microfone embutido que permite ao usuário falar de volta para o dispositivo vestível, por exemplo, para fazer perguntas sobre o ambiente. A voz do usuário é convertida em texto usando o Whisper da OpenAI, para que o ChatGPT possa responder com observações mais ou menos inteligentes. Todos os dados são processados na Google Cloud.

diagrama do dispositivo
A Nova Revolução Tecnológica: Conheça O Dispositivo Vestível De Ia Multimodal Codificado Pelo Gpt-4 2

“O Projeto Ring dá a sensação de ter um amigo curioso em seu – alguém que vê o mundo como você e sussurra pensamentos em seu ouvido de forma discreta”, escreve Fahmi.

GPT-4 escreve código para o dispositivo vestível, mas “não foi fácil”

Fahmi afirma que gerou todo o código para o Projeto Ring usando o GPT-4. Ao todo, o modelo de linguagem gerou cerca de 750 linhas de código. Isso inclui um script em Python para o Raspberry Pi, um aplicativo em nuvem, um e um aplicativo Android.

Fahmi tem experiência em programação, mas diz que não escreveu nenhum código há anos. Ele acredita que seu projeto mostra que é possível, embora não seja fácil, usar o GPT-4 para programar protótipos de software completos.

Sua experiência em programação o ajudou a fazer com que o GPT-4 fizesse correções nos lugares certos ou a montar o código corretamente copiando e colando. Segundo Fahmi, o GPT-4 ocasionalmente perdia o contexto e precisava ser realinhado. O código também era instável, não era eficiente nem pronto para produção, ele disse.

Apesar dessas limitações, a IA “pode ser capaz de automatizar a grande maioria das tarefas de programação em um período de tempo relativamente curto”, especula Fahmi.

Fahmi trabalha com IA e interfaces humano-computador na Meta, e anteriormente trabalhou na CTRL-Labs, a startup adquirida pela Meta em 2019. A Meta está desenvolvendo uma pulseira com base na tecnologia da CTRL-Labs, que pode traduzir ondas cerebrais em comandos precisos para o computador em tempo real.

Fonte: Andre Lug

Sobre o autor

Avatar de Fábio Neves

Fábio Neves

Jornalista DRT 0003133/MT - O universo de cada um, se resume no tamanho do seu saber. Vamos ser a mudança que, queremos ver no Mundo