Com o Segment Anything, a Meta lança um poderoso modelo de IA para segmentação de imagens que pode servir como um bloco de construção central para futuras aplicações de IA.
O Modelo de Segmento Qualquer Coisa (SAM) da Meta foi treinado em quase 11 milhões de imagens de todo o mundo e um bilhão de segmentações semi-automatizadas. O objetivo era desenvolver um “modelo de base” para a segmentação de imagens, e a Meta diz que conseguiu. Esses modelos de fundação são treinados em grandes quantidades de dados, alcançando capacidades generalizadas que permitem que eles sejam usados em muitos casos de uso especializado com pouco ou nenhum treinamento. O sucesso de grandes modelos de linguagem pré-treinados, como o GPT-3, provocou a tendência de tais modelos.
Uma vez treinado, o SAM pode segmentar objetos anteriormente desconhecidos em qualquer imagem e pode ser controlado por várias entradas: o SAM pode digitalizar automaticamente toda a imagem, os usuários podem marcar áreas a serem segmentadas ou clicar em objetos específicos. O SAM também deve ser capaz de lidar com texto, uma vez que o Meta integra um modelo de CLIPE em sua arquitetura, além do Vision Transformer, que inicialmente processa a imagem.
O pesquisador da Nvidia, Jim Fan, chama SAM de “momento GPT-3” na visão computacional.
SAM da Meta para tudo e o futuro do XR
O Meta vê muitas aplicações para o SAM, como fazer parte de sistemas de IA multimodais que podem entender conteúdo visual e de texto em páginas da Web ou segmentar pequenas estruturas orgânicas em microscopia.
No domínio XR, o SAM poderia segmentar objetos automaticamente, visualizar um humano usando um fone de ouvido XR e os objetos selecionados poderiam ser convertidos em objetos 3D por modelos como o MCC da Meta.
O SAM também pode ser usado para ajudar no estudo científico de ocorrências naturais na Terra ou mesmo no espaço, por exemplo, localizando animais ou objetos para estudar e rastrear em vídeo. Acreditamos que as possibilidades são amplas e estamos entusiasmados com os muitos casos de uso em potencial que ainda nem imaginamos.
Meta
No artigo que acompanha, os autores comparam o SAM ao CLIP: como o modelo multimodal da OpenAI, eles dizem que o SAM é explicitamente projetado para servir como um bloco de construção em modelos maiores de IA, permitindo inúmeras aplicações.
Segmentar qualquer conjunto de dados e demonstração disponível
Em um ponto, a comparação GPT-3 de Fan fica presa: ao contrário do modelo de linguagem da OpenAI, o SAM da Meta é de código aberto. Além do modelo, a Meta também libera o conjunto de dados de treinamento SA-1B usado.
Ele contém seis vezes mais imagens do que os conjuntos de dados disponíveis anteriormente e 400 vezes mais máscaras de segmentação. Os dados foram coletados em uma colaboração homem-máquina na qual SAM gerou iterativamente segmentações cada vez melhores a partir de dados de treinamento gerados por humanos, que foram então repetidamente corrigidos por humanos.
SAM está disponível no GitHub e pode ser experimentado através de uma demonstração.
Fonte: andrelug