Internet

Perché RAG non risolverà il problema delle allucinazioni dell'IA generativa

Le allucinazioni, fondamentalmente le bugie raccontate dai modelli di IA generativa, sono un grosso problema per le aziende che cercano di integrare la tecnologia nelle proprie operazioni.

Poiché i modelli non hanno una vera intelligenza e si limitano a predire parole, immagini, discorsi, musica e altri dati secondo uno schema privato, a volte si sbagliano. Molto sbagliati. In un recente articolo del Wall Street Journal, una fonte racconta di un caso in cui l'IA generativa di Microsoft ha inventato partecipanti a una riunione e ha sottinteso che le telefonate si trattassero di argomenti che in realtà non erano stati discussi durante la chiamata.

Come ho scritto tempo fa, le allucinazioni potrebbero essere un problema insolubile con le attuali architetture dei modelli basati sui trasformatori. Ma diversi fornitori di IA generativa suggeriscono che esse possano essere più o meno eliminate attraverso un approccio tecnico chiamato generazione potenziata da recupero, o RAG.

Ecco come un fornitore, Squirro, lo presenta:

Alla base dell'offerta c'è il concetto di Modelli di Linguaggio su Ampio Recupero o Generazione Potenziata da Recupero (RAG) integrata nella soluzione... [la nostra IA generativa] è unica nella sua promessa di zero allucinazioni. Ogni informazione che genera è rintracciabile fino a una fonte, garantendo credibilità.

Ecco un pitch simile da SiftHub:

Utilizzando la tecnologia RAG e modelli di linguaggio su ampia scala addestrati con conoscenze specifiche del settore, SiftHub consente alle aziende di generare risposte personalizzate senza allucinazioni. Ciò garantisce maggiore trasparenza e riduzione dei rischi e ispira totale fiducia nell'utilizzo dell'IA per tutte le proprie esigenze.

RAG è stato ideato dal data scientist Patrick Lewis, ricercatore presso Meta e University College London, e autore principale del paper del 2020 che ha coniato il termine. Applicato a un modello, RAG recupera documenti possibilmente rilevanti per una domanda, ad esempio una pagina di Wikipedia sul Super Bowl, utilizzando essenzialmente una ricerca per parole chiave e poi chiede al modello di generare risposte date questa aggiuntiva contestualizzazione.

Nel complesso, RAG è utile: consente di attribuire ciò che il modello genera a documenti recuperati per verificare la loro veridicità (e, come beneficio aggiuntivo, evitare la regurgitazione potenzialmente violatrice del copyright). Inoltre, RAG permette alle imprese che non vogliono che i loro documenti vengano utilizzati per addestrare un modello - ad esempio, aziende in settori fortemente regolamentati come la sanità e il diritto - di consentire ai modelli di attingere a tali documenti in modo più sicuro e temporaneo.

Tuttavia, RAG certamente non può fermare un modello dall'allucinare. E ha limitazioni che molti fornitori trascurano.

Wadden dice che RAG è più efficace in scenari "ricchi di conoscenze", in cui un utente vuole utilizzare un modello per soddisfare un "bisogno di informazioni" - ad esempio, per scoprire chi ha vinto il Super Bowl l'anno scorso. In questi scenari, il documento che risponde alla domanda probabilmente contiene molte delle stesse parole chiave della domanda (ad esempio, "Super Bowl", "l'anno scorso"), rendendolo relativamente facile da trovare tramite una ricerca per parole chiave.

Le cose si complicano con attività "intensive di ragionamento" come la codifica e la matematica, dove è più difficile specificare in una query di ricerca basata su parole chiave i concetti necessari per rispondere a una richiesta - tanto meno individuare quali documenti potrebbero essere rilevanti.

Anche con domande di base, i modelli possono farsi "distrarre" da contenuti non pertinenti nei documenti, in particolare in documenti lunghi in cui la risposta non è ovvia. Oppure possono - per ragioni ancora sconosciute - semplicemente ignorare i contenuti dei documenti recuperati, optando invece per fare affidamento sulla loro memoria parametrica.

RAG è anche costoso in termini di hardware necessario per applicarlo su larga scala.

Questo perché i documenti recuperati, che provengono dal web, da un database interno o da altri luoghi, devono essere memorizzati in memoria - almeno temporaneamente - in modo che il modello possa farvi riferimento. Una parte degli esborsi è il calcolo per il contesto aumentato che il modello deve elaborare prima di generare la risposta. Per una tecnologia già nota per la quantità di calcolo e elettricità necessaria perfino per le operazioni di base, questo rappresenta una seria considerazione.

Questo non vuol dire che RAG non possa essere migliorato. Wadden ha sottolineato molti sforzi in corso per addestrare i modelli a fare un migliore uso dei documenti recuperati tramite RAG.

Alcuni di questi sforzi coinvolgono modelli che possono "decidere" quando fare uso dei documenti, o modelli che possono scegliere di non eseguire il recupero in primo luogo se lo ritengono non necessario. Altri si concentrano su modi per indicizzare in modo più efficiente set di dati massicci di documenti e migliorare la ricerca attraverso rappresentazioni migliori dei documenti - rappresentazioni che vanno oltre le parole chiave.

“Siamo abbastanza bravi a recuperare documenti basati su parole chiave, ma non altrettanto bravi a recuperare documenti basati su concetti più astratti, come una tecnica di dimostrazione necessaria per risolvere un problema matematico,” ha detto Wadden. “È necessaria ricerca per costruire rappresentazioni di documenti e tecniche di ricerca in grado di identificare documenti rilevanti per compiti di generazione più astratti. Ritengo che sia in gran parte una questione ancora aperta a questo punto.”

Quindi RAG può aiutare a ridurre le allucinazioni di un modello, ma non è la risposta a tutti i problemi di allucinazione dell'IA. Fate attenzione a qualsiasi fornitore che cerchi di sostenere il contrario.

Related Articles

Back to top button Back to top button