O algoritmo de IA âBigger, Better, Fasterâ domina 26 jogos do Atari em apenas duas horas, igualando a eficiĂȘncia humana.
O aprendizado por reforço Ă© uma das ĂĄreas de pesquisa principais do Google DeepMind e poderia, um dia, resolver muitos problemas do mundo real com a IA. No entanto, um grande problema Ă© que geralmente Ă© muito ineficiente: os algoritmos de RL exigem uma grande quantidade de dados de treinamento e poder computacional. Em seu trabalho mais recente, o Google DeepMind e pesquisadores do Mila e da UniversitĂ© de MontrĂ©al mostram que Ă© possĂvel fazer de forma diferente.
Maior, Melhor e Mais RĂĄpido
O modelo âBigger, Better, Fasterâ (BBF) alcançou desempenho super-humano nos testes do Atari. Isso nĂŁo Ă© novidade â outros agentes de aprendizado por reforço jĂĄ venceram os humanos nos jogos do Atari.
No entanto, o BBF aprende com apenas duas horas de jogo, o mesmo tempo de prĂĄtica que os testadores humanos tĂȘm no benchmark. Assim, o algoritmo de aprendizado sem modelo alcança a eficiĂȘncia de aprendizado humana e requer significativamente menos poder computacional do que os mĂ©todos anteriores. Agentes sem modelo aprendem diretamente das recompensas e puniçÔes que recebem por meio de suas interaçÔes com o mundo do jogo, sem criar explicitamente um modelo do mundo do jogo.
A equipe alcançou isso utilizando uma rede muito maior, mĂ©todos de treinamento de autoavaliação e outros mĂ©todos para aumentar a eficiĂȘncia. Por exemplo, o BBF pode ser treinado em uma Ășnica GPU Nvidia A100, enquanto outras abordagens exigem muito mais poder computacional.
Melhorias adicionais sĂŁo possĂveis, o Atari ainda Ă© um bom benchmark
A equipe destaca que o BBF ainda nĂŁo Ă© superior aos humanos em todos os jogos do benchmark, que exclui 29 dos 55 jogos geralmente usados para agentes de RL. No entanto, comparando o BBF a outros modelos em todos os 55 jogos, mostra-se que o algoritmo eficiente estĂĄ aproximadamente no mesmo nĂvel dos sistemas treinados com 500 vezes mais dados.
A equipe tambĂ©m vĂȘ isso como um indicativo de que o benchmark do Atari ainda Ă© um bom benchmark para RL, tornando a pesquisa financiĂĄvel para equipes de pesquisa menores.
Algoritmos eficientes anteriores de RL também mostraram fraquezas em escalabilidade, enquanto o BBF não tem limitaçÔes e continua a melhorar seu desempenho com mais dados de treinamento.
âNo geral, esperamos que nosso trabalho inspire outros pesquisadores a continuarem avançando a eficiĂȘncia de amostragem em deep RL, para eventualmente alcançar um desempenho de nĂvel humano em todas as tarefas com eficiĂȘncia de nĂvel humano ou super-humanaâ, conclui a equipe.
Algoritmos de RL mais eficientes podem reestabelecer o método em um cenårio de IA atualmente dominado por modelos de auto-supervisão.
Fonte: Andre Lug