EfficientViT acelera significativamente o processamento de imagens em aplicações de visão computacional

O EfficientViT traz visão computacional eficiente para câmeras de alta resolução e pode levar a resultados mais precisos em direção autônoma ou medicina.

Pesquisadores do MIT revelaram um novo modelo de visão computacional que pode realizar segmentação semântica de imagens de alta resolução com muito mais eficiência do que os modelos anteriores. A segmentação semântica envolve marcar e categorizar todos os pixels em uma imagem. Com isso, veículos autônomos podem reconhecer com precisão objetos como outros carros, pedestres e seus arredores, ou sistemas de IA médica podem reconhecer o tecido tumoral.

Índice

1 EfficientViT reduz a complexidade computacional de transformadores de visão

2 A equipe compensa a perda de precisão com componentes adicionais

EfficientViT reduz a complexidade computacional de transformadores de visão

O novo modelo, chamado EfficientViT, é baseado no Vision Transformer, mas muda o mecanismo de atenção do modelo. Isso ocorre porque os transformadores de visão convencionais sofrem da mesma desvantagem que os transformadores clássicos para processamento de linguagem: a complexidade computacional do mecanismo de atenção aumenta de forma quadrática, tornando o processamento de imagens de alta resolução extremamente intensivo computacionalmente e, assim, impossibilitando o processamento em tempo real em dispositivos de borda atuais.

Para isso, o modelo dos pesquisadores, EfficientViT, simplifica o processo de criação de “mapas de atenção”, representações que capturam as relações entre diferentes partes da imagem. Isso ajuda o modelo a formar um “campo receptivo global”, o que significa que ele pode acessar todas as partes relevantes da imagem.

EfficientViT usa uma função linear em vez da função de similaridade não-linear usual – aumentando a complexidade computacional linearmente em vez de quadrática.

A equipe compensa a perda de precisão com componentes adicionais

No entanto, a função linear vem com uma perda de precisão porque captura apenas o contexto global da imagem, não a informação local. A equipe compensa essa perda de precisão com dois componentes que podem capturar características locais, bem como objetos grandes e pequenos.

Nos testes, o EfficientViT teve um desempenho tão bom ou melhor do que os modelos menos eficientes, processando imagens de alta resolução até nove vezes mais rápido.

Esse processamento mais eficiente pode permitir a segmentação em tempo real para veículos autônomos, imagens médicas, fones de ouvido de RV e outras aplicações de borda.

O código e o modelo estão disponíveis no GitHub.

Fonte: Andre Lug