Sophia @princesinhamt
Tecnologia

AutoDAN-Turbo: Software autônomo desenvolve estratégias de jailbreak eficazes

2024 word2
Grupo do Whatsapp Cuiabá

Uma equipe de pesquisadores de universidades dos EUA e da Nvidia criou o AutoDAN-Turbo, um sistema que encontra automaticamente formas de contornar as salvaguardas em modelos de linguagem de grande porte.

O AutoDAN-Turbo funciona descobrindo e combinando diferentes estratégias de “jailbreak” — maneiras de formular solicitações que driblam as regras embutidas nos modelos. Por exemplo, embora o ChatGPT não deva ajudar em atividades ilegais, certas formulações de comandos ainda podem enganá-lo para fazer isso.

O sistema é capaz de desenvolver novas abordagens de jailbreak por conta própria e salvá-las de forma organizada. Isso permite que ele reutilize e aperfeiçoe estratégias bem-sucedidas.

O AutoDAN-Turbo desenvolve um comando abrangente a partir de uma estratégia de jailbreak. | Imagem: Liu et al.
O Autodan-Turbo Desenvolve Um Comando Abrangente A Partir De Uma Estratégia De Jailbreak. | Imagem: Liu Et Al.

Como o AutoDAN-Turbo funciona

O AutoDAN-Turbo cria um comando completo a partir de uma estratégia de jailbreak. Ele também pode incorporar métodos de jailbreak criados por humanos em sua biblioteca de estratégias.

O sistema precisa apenas de acesso à saída de texto do modelo para funcionar. Testes mostram que ele atinge altas taxas de sucesso ao atacar tanto modelos de linguagem de código aberto quanto proprietários.

Quando recebe um comando simples, como criar um vírus de computador, o AutoDAN-Turbo inicia uma cadeia de ações para desenvolver um comando de jailbreak eficaz. | Imagem: Liu et al.
Quando Recebe Um Comando Simples, Como Criar Um Vírus De Computador, O Autodan-Turbo Inicia Uma Cadeia De Ações Para Desenvolver Um Comando De Jailbreak Eficaz. | Imagem: Liu Et Al.

Superando outros métodos

O AutoDAN-Turbo agora lidera em relação a outras abordagens no conjunto de dados Harmbench, usado para testar jailbreaks. Ele tende a funcionar melhor com modelos maiores, como o Llama-3-70B, mas também apresenta bons resultados em modelos menores.

O sistema não só tem mais sucesso em seus ataques, mas também gera conteúdos mais prejudiciais, conforme medido pelo score StrongREJECT.

No conjunto de dados Harmbench, o novo método supera todos os outros. | Imagem: Liu et al.
No Conjunto De Dados Harmbench, O Novo Método Supera Todos Os Outros. | Imagem: Liu Et Al.

Os pesquisadores afirmam que o forte desempenho do AutoDAN-Turbo se deve à sua capacidade de explorar estratégias de jailbreak de forma independente, sem orientação humana. Em contraste, outros métodos, como o Rainbow Teaming, dependem de um conjunto limitado de estratégias geradas por humanos, resultando em uma taxa de sucesso (ASR) mais baixa.

Em particular, o AutoDAN-Turbo alcançou uma taxa de sucesso de ataque de 88,5% no GPT-4-1106-Turbo. Ao adicionar sete estratégias de jailbreak projetadas por humanos a partir de artigos de pesquisa, ele conseguiu uma taxa de sucesso ainda maior de 93,4%.

O código do AutoDAN-Turbo está disponível para download gratuito no GitHub, juntamente com as instruções de configuração.

Fonte: Andre Lug

Sobre o autor

Avatar de Fábio Neves

Fábio Neves

Jornalista DRT 0003133/MT - O universo de cada um, se resume no tamanho do seu saber. Vamos ser a mudança que, queremos ver no Mundo