Pesquisadores da Microsoft demonstram LLaVA-Med, um assistente de IA multimodal para biomedicina capaz de processar imagens e texto.
Please enable JavaScript
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[250,250],’andrelug_com-box-3′,’ezslot_3′,104,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-box-3-0’);
Um grande conjunto de dados de pares de imagem-texto biomédicos foi utilizado para treinar o modelo de IA multimodal. O conjunto de dados inclui radiografias de tórax, ressonância magnética, histologia, patologia e imagens de tomografia computadorizada, entre outras. Primeiramente, o modelo aprende a descrever o conteúdo dessas imagens e, assim, conceitos biomédicos importantes. Em seguida, o LLaVA-Med (Large Language and Vision Assistant for BioMedicine) é treinado com um conjunto de dados de instruções gerado pelo GPT-4.
Esse conjunto de dados é criado pelo GPT-4 com base nos textos biomédicos que contêm todas as informações sobre cada imagem e pode ser usado para gerar pares de perguntas e respostas sobre as imagens. Na fase de ajuste fino, o LLaVA-Med é então treinado nas imagens e nos exemplos correspondentes do GPT-4.
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[580,400],’andrelug_com-medrectangle-3′,’ezslot_5′,112,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-medrectangle-3-0’);
O resultado é um assistente capaz de responder a perguntas sobre uma imagem biomédica em linguagem natural.
LLaVA-Med foi treinado em 15 horas
O método de treinamento utilizado permitiu que o LLaVA-Med fosse treinado em oito GPUs Nvidia A100 em menos de 15 horas. Ele é baseado em um Vision Transformer e no modelo de linguagem Vicuna, que por sua vez é baseado no LLaMA da Meta. De acordo com a equipe, o modelo possui “excelente capacidade de conversação multimodal”. Em três conjuntos de dados biomédicos padrão para responder a perguntas visuais, o LLaVA-Med superou modelos anteriores de última geração em algumas métricas.
Assistentes multimodais como o LLaVA-Med poderiam, um dia, ser utilizados em diversas aplicações biomédicas, como pesquisa médica, interpretação de imagens biomédicas complexas e suporte de conversação na área da saúde.
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[728,90],’andrelug_com-medrectangle-4′,’ezslot_6′,113,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-medrectangle-4-0’);
No entanto, a qualidade ainda não é boa o suficiente: “Embora acreditemos que o LLaVA-Med representa um passo significativo para a construção de um assistente visual biomédico útil, observamos que o LLaVA-Med é limitado por alucinações e um raciocínio profundo fraco comum a muitos LMMs”, diz a equipe. Trabalhos futuros se concentrarão em melhorar a qualidade e a confiabilidade.
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[250,250],’andrelug_com-box-4′,’ezslot_7′,911,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-box-4-0’);if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[250,250],’andrelug_com-box-4′,’ezslot_8′,911,’0′,’1′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-box-4-0_1’); .box-4-multi-911{border:none !important;display:block !important;float: !important;line-height:0px;margin-bottom:15px !important;margin-left:auto !important;margin-right:auto !important;margin-top:15px !important;max-width:100% !important;min-height:250px;min-width:250px;padding:0;text-align:center !important;}
Mais informações estão disponíveis no GitHub.
Fonte: Andre Lug