I-JEPA mostra como o chefe de IA da Meta, Yann LeCun, enxerga o futuro da IA â e tudo começa novamente com os benchmarks do ImageNet.
Please enable JavaScript
var cid = â8108194658â;
var pid = âca-pub-2532350215540740â;
var slotId = âdiv-gpt-ad-andrelug_com-box-3-0â;
var ffid = 1;
var alS = 1002 % 1000;
var container = document.getElementById(slotId);
var ins = document.createElement(âinsâ);
ins.id = slotId + â-asloadedâ;
ins.className = âadsbygoogle ezasloadedâ;
ins.dataset.adClient = pid;
ins.dataset.adChannel = cid;
ins.style.display = âblockâ;
ins.style.minWidth = container.attributes.ezaw.value + âpxâ;
ins.style.width = â100%â;
ins.style.height = container.attributes.ezah.value + âpxâ;
container.style.maxHeight = container.style.minHeight + âpxâ;
container.style.maxWidth = container.style.minWidth + âpxâ;
container.appendChild(ins);
(adsbygoogle = window.adsbygoogle || []).push({});
window.ezoSTPixelAdd(slotId, âstat_source_idâ, 44);
window.ezoSTPixelAdd(slotId, âadsensetypeâ, 1);
var lo = new MutationObserver(window.ezaslEvent);
lo.observe(document.getElementById(slotId + â-asloadedâ), { attributes: true });
HĂĄ menos de um ano, o pioneiro da IA e chefe de IA da Meta, Yann LeCun, revelou uma nova arquitetura de IA projetada para superar as limitaçÔes dos sistemas atuais, como alucinaçÔes e fraquezas lĂłgicas. Com o I-JEPA, uma equipe da Meta AI (FAIR), Universidade McGill, Mila, Instituto de IA de Quebec e Universidade de Nova York apresenta um dos primeiros modelos de IA a seguir a âArquitetura de PrevisĂŁo de Incorporação Conjuntaâ. Os pesquisadores incluem o primeiro autor Mahmoud Assran e Yann LeCun.
O modelo baseado no Vision Transformer alcança alto desempenho em benchmarks que vão desde classificação linear até contagem de objetos e previsão de profundidade, e é mais eficiente em termos de computação do que outros modelos de visão computacional amplamente utilizados.
var cid = â8108194658â;
var pid = âca-pub-2532350215540740â;
var slotId = âdiv-gpt-ad-andrelug_com-medrectangle-3-0â;
var ffid = 1;
var alS = 1021 % 1000;
var container = document.getElementById(slotId);
var ins = document.createElement(âinsâ);
ins.id = slotId + â-asloadedâ;
ins.className = âadsbygoogle ezasloadedâ;
ins.dataset.adClient = pid;
ins.dataset.adChannel = cid;
ins.style.display = âblockâ;
ins.style.minWidth = container.attributes.ezaw.value + âpxâ;
ins.style.width = â100%â;
ins.style.height = container.attributes.ezah.value + âpxâ;
container.style.maxHeight = container.style.minHeight + âpxâ;
container.style.maxWidth = container.style.minWidth + âpxâ;
container.appendChild(ins);
(adsbygoogle = window.adsbygoogle || []).push({});
window.ezoSTPixelAdd(slotId, âstat_source_idâ, 44);
window.ezoSTPixelAdd(slotId, âadsensetypeâ, 1);
var lo = new MutationObserver(window.ezaslEvent);
lo.observe(document.getElementById(slotId + â-asloadedâ), { attributes: true });
O I-JEPA aprende com representaçÔes abstratas
O I-JEPA Ă© treinado de forma auto-supervisionada para prever detalhes das partes nĂŁo visĂveis de uma imagem. Isso Ă© feito simplesmente mascarando grandes blocos dessas imagens cujo conteĂșdo o I-JEPA deve prever. Outros mĂ©todos muitas vezes dependem de dados de treinamento muito mais extensos.
Para garantir que o I-JEPA aprenda representaçÔes semĂąnticas de nĂvel superior dos objetos e nĂŁo opere no nĂvel de pixel ou token, a Meta coloca uma espĂ©cie de filtro entre a previsĂŁo e a imagem original.
AlĂ©m de um codificador de contexto, que processa as partes visĂveis de uma imagem, e um preditor, que usa a saĂda do codificador de contexto para prever a representação de um bloco-alvo na imagem, o I-JEPA consiste em um codificador-alvo. Este codificador-alvo fica entre a imagem completa, que serve como sinal de treinamento, e o preditor.
if(typeof ez_ad_units != âundefinedâ){ez_ad_units.push([[336,280],âandrelug_com-medrectangle-4âČ,âezslot_4âČ,113,â0âČ,â0âČ])};__ez_fad_position(âdiv-gpt-ad-andrelug_com-medrectangle-4-0â);

Assim, a previsĂŁo do I-JEPA nĂŁo Ă© feita no nĂvel de pixel, mas sim no nĂvel de representaçÔes abstratas Ă medida que a imagem Ă© processada pelo codificador-alvo. Com isso, o modelo utiliza âmetas de previsĂŁo abstratas em que detalhes desnecessĂĄrios em nĂvel de pixel sĂŁo potencialmente eliminadosâ, afirma a Meta, levando o modelo a aprender caracterĂsticas mais semĂąnticas.
if(typeof ez_ad_units != âundefinedâ){ez_ad_units.push([[580,400],âandrelug_com-box-4âČ,âezslot_6âČ,911,â0âČ,â0âČ])};__ez_fad_position(âdiv-gpt-ad-andrelug_com-box-4-0â);
I-JEPA se destaca no ImageNet
As representaçÔes aprendidas podem entĂŁo ser reutilizadas para diferentes tarefas, permitindo que o I-JEPA alcance Ăłtimos resultados no ImageNet com apenas 12 exemplos rotulados por classe. O modelo com 632 milhĂ”es de parĂąmetros foi treinado em 16 GPUs Nvidia A100 em menos de 72 horas. Outros mĂ©todos geralmente requerem de duas a dez vezes mais horas de GPU e obtĂȘm taxas de erro piores quando treinados com a mesma quantidade de dados.

Em um experimento, a equipe utiliza um modelo de IA generativo para visualizar as representaçÔes do I-JEPA e mostra que o modelo aprende conforme o esperado.

O I-JEPA Ă© uma prova de conceito para a arquitetura proposta, cujo elemento central Ă© uma espĂ©cie de filtro entre a previsĂŁo e os dados de treinamento, que por sua vez possibilita representaçÔes abstratas. De acordo com LeCun, tais abstraçÔes poderiam permitir que os modelos de IA se assemelhem mais ao aprendizado humano, façam inferĂȘncias lĂłgicas e resolvam o problema de alucinação na IA generativa.
O JEPA poderia viabilizar modelos do mundo
O objetivo geral dos modelos JEPA nĂŁo Ă© apenas reconhecer objetos ou gerar texto â LeCun deseja viabilizar modelos abrangentes do mundo que funcionem como parte de uma inteligĂȘncia artificial autĂŽnoma. Para isso, ele propĂ”e empilhar os JEPA de forma hierĂĄrquica para possibilitar previsĂ”es em um nĂvel mais alto de abstração com base em previsĂ”es de mĂłdulos inferiores.
âSeria especialmente interessante avançar os JEPA para aprender modelos mais gerais do mundo a partir de modalidades mais ricas, por exemplo, permitindo fazer previsĂ”es espaciais e temporais de longo alcance sobre eventos futuros em um vĂdeo a partir de um contexto curto e condicionando essas previsĂ”es a prompts de ĂĄudio ou textoâ, afirma a Meta.
if(typeof ez_ad_units != âundefinedâ){ez_ad_units.push([[300,250],âandrelug_com-banner-1âČ,âezslot_9âČ,115,â0âČ,â0âČ])};__ez_fad_position(âdiv-gpt-ad-andrelug_com-banner-1-0â);
Portanto, o JEPA serĂĄ aplicado a outros domĂnios, como pares de imagem-texto ou dados de vĂdeo. âEste Ă© um passo importante para aplicar e escalar mĂ©todos auto-supervisionados para aprender um modelo geral do mundoâ, afirma o blog.
LeCun fornece mais insights sobre a motivação, desenvolvimento e funcionamento do JEPA em uma palestra no Instituto de IA Experencial da Universidade Northeastern.
Mais informaçÔes estĂŁo disponĂveis no meta-blog do I-JEPA. O modelo e o cĂłdigo estĂŁo disponĂveis no GitHub. Com conteĂșdo do The Decoder.
if(typeof ez_ad_units != âundefinedâ){ez_ad_units.push([[728,90],âandrelug_com-large-leaderboard-2âČ,âezslot_7âČ,116,â0âČ,â0âČ])};__ez_fad_position(âdiv-gpt-ad-andrelug_com-large-leaderboard-2-0â);
Fonte: Andre Lug