Combate ao Mosquito
Tecnologia

DeepMind: Novo agente de InteligĂȘncia Artificial aprende 26 jogos em apenas 2 horas! Descubra como funciona.

2025 word2
Grupo do Whatsapp CuiabĂĄ

O algoritmo de IA “Bigger, Better, Faster” domina 26 jogos do Atari em apenas duas horas, igualando a eficiĂȘncia humana.

O aprendizado por reforço é uma das åreas de pesquisa principais do Google DeepMind e poderia, um dia, resolver muitos problemas do mundo real com a IA. No entanto, um grande problema é que geralmente é muito ineficiente: os algoritmos de RL exigem uma grande quantidade de dados de treinamento e poder computacional. Em seu trabalho mais recente, o Google DeepMind e pesquisadores do Mila e da Université de Montréal mostram que é possível fazer de forma diferente.

Maior, Melhor e Mais RĂĄpido

O modelo “Bigger, Better, Faster” (BBF) alcançou desempenho super-humano nos testes do Atari. Isso nĂŁo Ă© novidade – outros agentes de aprendizado por reforço jĂĄ venceram os humanos nos jogos do Atari.

No entanto, o BBF aprende com apenas duas horas de jogo, o mesmo tempo de prĂĄtica que os testadores humanos tĂȘm no benchmark. Assim, o algoritmo de aprendizado sem modelo alcança a eficiĂȘncia de aprendizado humana e requer significativamente menos poder computacional do que os mĂ©todos anteriores. Agentes sem modelo aprendem diretamente das recompensas e puniçÔes que recebem por meio de suas interaçÔes com o mundo do jogo, sem criar explicitamente um modelo do mundo do jogo.

A equipe alcançou isso utilizando uma rede muito maior, mĂ©todos de treinamento de autoavaliação e outros mĂ©todos para aumentar a eficiĂȘncia. Por exemplo, o BBF pode ser treinado em uma Ășnica GPU Nvidia A100, enquanto outras abordagens exigem muito mais poder computacional.

Melhorias adicionais sĂŁo possĂ­veis, o Atari ainda Ă© um bom benchmark

A equipe destaca que o BBF ainda nĂŁo Ă© superior aos humanos em todos os jogos do benchmark, que exclui 29 dos 55 jogos geralmente usados para agentes de RL. No entanto, comparando o BBF a outros modelos em todos os 55 jogos, mostra-se que o algoritmo eficiente estĂĄ aproximadamente no mesmo nĂ­vel dos sistemas treinados com 500 vezes mais dados.

A equipe tambĂ©m vĂȘ isso como um indicativo de que o benchmark do Atari ainda Ă© um bom benchmark para RL, tornando a pesquisa financiĂĄvel para equipes de pesquisa menores.

Algoritmos eficientes anteriores de RL também mostraram fraquezas em escalabilidade, enquanto o BBF não tem limitaçÔes e continua a melhorar seu desempenho com mais dados de treinamento.

“No geral, esperamos que nosso trabalho inspire outros pesquisadores a continuarem avançando a eficiĂȘncia de amostragem em deep RL, para eventualmente alcançar um desempenho de nĂ­vel humano em todas as tarefas com eficiĂȘncia de nĂ­vel humano ou super-humana”, conclui a equipe.

Algoritmos de RL mais eficientes podem reestabelecer o método em um cenårio de IA atualmente dominado por modelos de auto-supervisão.

Fonte: Andre Lug

Sobre o autor

Avatar de FĂĄbio Neves

FĂĄbio Neves

Jornalista DRT 0003133/MT - O universo de cada um, se resume no tamanho do seu saber. Vamos ser a mudança que, queremos ver no Mundo