Nesse artigo vou te explicar um pouco sobre o que é o LERF e como ele é relevante para a situação atual de desenvolvimento de inteligência artificial.
Os Neural Radiance Fields (NeRFs) são uma tecnologia gráfica promissora que pode transformar o mundo real em 3D de forma relativamente rápida e com alta qualidade.
O LERF (Language Embedded Radiance Fields) integra os recursos de grandes modelos de linguagem em NeRFs. Isso permite o reconhecimento preciso de objetos 3D sem treinamento adicional.
Pesquisadores da UC Berkeley apresentam o LERF, que integra volumetricamente vetores CLIP no ambiente 3D de um NeRF. O LERF extrai mapas de relevância 3D do ambiente NeRF. Esses mapas podem ser pesquisados usando linguagem natural.
Por exemplo, um usuário pode pesquisar um título de livro específico no ambiente NeRF de uma livraria. O LERF pode identificar e marcar esse livro no ambiente com precisão de pixel na primeira tentativa (tiro zero). Segundo os pesquisadores, a tecnologia não requer propostas de região, máscaras ou ajuste fino.
O Google, por exemplo, está trabalhando na integração de NeRFs de lugares reais, como restaurantes ou lojas, no Google Maps. Usando a tecnologia LERF, esses locais do mundo real digitalizados podem ser pesquisados virtualmente na velocidade da luz.
No entanto, os LERFs ainda são estáticos, portanto, para uma pesquisa em tempo real do supermercado mais próximo, uma pesquisa multimodal usando imagens normais de webcam 2D seria mais apropriada. Para uma visita guiada VR de uma loja real, no entanto, a combinação de LERF e NeRF seria suficiente. Além do Google, a Meta também está pesquisando NeRFs para permitir que os usuários tragam objetos reais para os mundos digitais usando varreduras de smartphones.
LERF – Grandes modelos de linguagem interagem com o mundo real digitalizado através de NeRFs
O LERF preenche a lacuna entre grandes modelos de linguagem e mundos digitais que, no caso do NeRFS, podem estar muito próximos da realidade.
Em um experimento, a equipe de pesquisa usou o ChatGPT para gerar uma lista de tarefas para limpar uma cozinha onde o café havia sido derramado. Todas as ações sugeridas pelo ChatGPT poderiam ser mapeadas para áreas e objetos relevantes para as etapas em um NeRF de cozinha usando o mapa de relevância 3D do LERF.
Por exemplo, o LERF detecta a toalha de papel sobre a pia (centro), que o ChatGPT acha que deve ser usada primeiro para limpar o máximo possível do café derramado. O café derramado (extrema direita) também é marcado na imagem, mas com menos relevância ao procurar a toalha de papel.
O que é especial sobre o uso da linguagem natural é que você pode pesquisar uma cena 3D para muitos recursos diferentes: cor, forma, função, nome de um objeto ou até mesmo marcas. O sistema pode até distinguir entre diferentes tipos de donuts, como chocolate e mirtilo.
A equipe de pesquisa vê potenciais aplicações em robótica, como treinamento visual de robôs em simulações, melhor compreensão das capacidades dos modelos de linguagem visual e interação com e em mundos 3D.
A equipe planeja integrar o LERF ao software de código aberto NeRF “Nerfstudio”. Mais informações e exemplos estão disponíveis na página do projeto lerf.io. Artigo inspirado no The Decodr.
Fonte: andrelug