Na internet pipocam dicas de ferramentas de inteligências artificiais (IA) que podem ajudar a resolver problemas matemáticos. Enquanto elas são úteis no cotidiano e vão bem em testes de ensino médio, um estudo comprovou que as IAs não estão nem perto de revolucionar a compreensão da matemática avançada.
A pesquisa foi feita por um instituto de pesquisa em tecnologia, Epoch AI, que reuniu 60 matemáticos especialistas para criarem o teste mais difícil que conseguissem. O teste foi aplicado a seis diferentes IAs, escolhidas por terem os melhores resultados em matemática: o1-preview, o1-mini e GPT-4o, da OpenAI; além de Claude 3.5 Sonnet, Grok 2 Beta e Gemini 1.5 Pro 002.
O novo teste, chamado FrontierMath, teve dois diferenciais em relação aos que já existem no mercado. Primeiro, ele focou em questões “excepcionalmente desafiadoras, que exigem raciocínio e criatividade profundos, incluindo matemática em nível de pesquisa”. Isso significa que as questões requerem horas e até dias de esforço e pesquisa, mesmo para pesquisadores especialistas no ramo.
O segundo diferencial foi o uso de questões inéditas, para evitar que as IAs já tivessem sido treinadas com alguma informação disponível na web. Para proteger-se contra a contaminação de dados, os autores do teste discutiram seus problemas somente em servidores criptografados e evitaram usar editores de texto online, onde uma IA poderia vislumbrar seus planos.
As 150 questões cobriam 70% dos assuntos da matemática moderna, com diferentes formatos: algumas no estilo de perguntas de competição, e outras de pesquisa contemporânea. Nenhuma das IAs conseguiu acertar mais de 2% das questões. Mas as ferramentas, como de costume, não admitiram a derrota: deram, com confiança, as respostas erradas.
As IAs são alimentadas por LLMs, ou large language models. Isso significa que elas são treinadas com quantidades imensas de textos e identificam os padrões neles para prever a sequência mais provável em resposta à uma solicitação. Quanto mais bem treinadas, mais precisas elas podem ficar – mas ainda assim, estão sempre sujeitas a erros.
No caso da matemática, os modelos costumam ser excelentes em testes de nível de ensino médio – como foi o caso da IA da Google DeepMind que conseguiu medalha de prata na Olimpíada Internacional de Matemática. Mas especialistas apontam que esses resultados precisam ser analisados levando em conta que as IAs já haviam acessado um enorme volume de questões semelhantes disponíveis na internet.
Nesses assuntos mais simples, é como a IA estivesse “colando” de outras fontes. O teste com questões complexas e inéditas mostrou que o raciocínio matemático em si não está bem desenvolvido o suficiente.
Os especialistas que participaram da elaboração do teste acreditam que é apenas uma questão de tempo até que o desempenho das IAs na matemática se torne competitivo para humanos. Eles afirmam que ainda faltam dados para treinar essas ferramentas, e que o aprimoramento deve ocorrer com a utilização da IA junto aos humanos, como uma estratégia complementar.
O estudo ainda não foi oficialmente publicado (ou seja, ainda não passou pela revisão de outros especialistas) e está disponível em pré-print.
Fonte: abril