Internet

Ricercatori antropici indeboliscono l'etica dell'IA con domande ripetute

Mars nordic Monday, May 20 2024

Come si fa ad ottenere da un'intelligenza artificiale una risposta a una domanda che non dovrebbe rispondere? Esistono molte tecniche di "jailbreak", e i ricercatori di Anthropic ne hanno appena scoperta una nuova, secondo la quale un grande modello di linguaggio (LLM) può essere convinto a dirti come costruire una bomba se lo avvii con alcune dozzine di domande meno dannose.

Chiamano l'approccio "many-shot jailbreaking" e hanno scritto un articolo al riguardo e informato anche i loro colleghi nella comunità dell'IA affinché possa essere mitigato.

La vulnerabilità è una novità, derivante dall'aumento della "finestra di contesto" dell'ultima generazione di LLM. Questa è la quantità di dati che possono trattenere in quella che potresti chiamare memoria a breve termine, una volta solo poche frasi ma ora migliaia di parole e persino interi libri.

Quello che i ricercatori di Anthropic hanno scoperto è che questi modelli con ampie finestre di contesto tendono a performare meglio su molti compiti se ci sono molti esempi di quel compito nel prompt. Quindi se ci sono molte domande banali nel prompt (o documento di avviamento, come una lunga lista di curiosità che il modello ha in contesto), le risposte migliorano effettivamente nel tempo. Quindi un dato che potrebbe aver sbagliato se fosse stata la prima domanda, potrebbe essere corretto se è la centesima domanda.

Ma in un'estensione inaspettata di questo "apprendimento in contesto", come viene chiamato, i modelli diventano anche "migliori" nel rispondere a domande inappropriate. Quindi se gli chiedi di costruire una bomba subito, rifiuterà. Ma se il prompt mostra che risponde a 99 altre domande di minor dannosità e poi gli chiedi di costruire una bomba... è molto più probabile che acconsenta.

(Aggiornamento: ho frainteso l'inizio della ricerca come se il modello rispondesse effettivamente alla serie di prompt di avviamento, ma le domande e risposte sono scritte direttamente nel prompt stesso. Questo ha più senso, e ho aggiornato il post per rifletterlo.)

Perché funziona? Nessuno capisce veramente cosa succeda nel groviglio di pesi che è un LLM, ma chiaramente c'è un meccanismo che gli permette di individuare ciò che l'utente desidera, come dimostrato dal contenuto nella finestra di contesto o nel prompt stesso. Se l'utente desidera curiosità, sembra attivare gradualmente più potere di curiosità latente mentre si fanno dozzine di domande. E per qualche motivo, la stessa cosa accade con gli utenti che chiedono dozzine di risposte inappropriate - anche se devi fornire le risposte oltre alle domande per creare l'effetto.

Il team ha già informato i propri colleghi e persino i concorrenti riguardo a questo attacco, qualcosa che spera "favorisca una cultura in cui le vulnerabilità come questa vengono apertamente condivise tra i fornitori e i ricercatori di LLM."

Per la loro stessa mitigazione, hanno scoperto che sebbene limitare la finestra di contesto aiuti, ha anche un effetto negativo sulle prestazioni del modello. Non si può permettere questo - quindi stanno lavorando alla classificazione e al contestualizzazione delle query prima che vadano al modello. Naturalmente, questo fa sì che tu abbia un modello diverso da ingannare... ma a questo punto, spostare i paletti nella sicurezza dell'IA è da aspettarsi.