Come i Large Language Models (LLM) possono essere manipolati per diffondere fake news

Una piccola introduzione al mondo dei Large Language Models e la loro manipolazione. Un esperimento illuminante e allarmante di Mithril Security

L’articolo di oggi arriva da Londra, e non è un fact-checking: potremmo definirlo una piccola introduzione al mondo dei Large Language Models e la loro manipolazione. L’autore del testo che segue è il nostro Dott PA, il medico di BUTAC, che oggi non ci parla prettamente di salute poiché sta completando il suo dottorato di ricerca a Londra in intelligenza artificiale applicata alla medicina.

La redazione di BUTAC


Oggi voglio raccontarvi di una tematica molto importante e contemporanea: la manipolazione dei Large Language Models (LLM).

Per fare un po’ di chiarezza, un LLM è un tipo di modello di intelligenza artificiale addestrato a comprendere e generare linguaggio umano. Questi modelli vengono addestrati su enormi quantità di testi e sono in grado di rispondere a domande, scrivere saggi, creare poesie, tradurre lingue e molto altro ancora. Un esempio famoso di LLM è GPT-3, sviluppato da OpenAI, capace di compiti linguistici di grande complessità.

In pochissimo tempo, questi LLM sono diventati strumenti diffusamente utilizzati. Sono impiegati in molteplici settori, dal customer service, alla medicina, all’istruzione, diventando in alcuni casi fondamentali per la gestione di attività quotidiane.

Tuttavia, un recente esperimento condotto da Mithril Security, i cui risultati sono ancora in fase di verifica, ha messo in luce una potenziale minaccia molto seria. Sul suo blog, Mithril ha descritto un esperimento in cui hanno “drogato” un LLM per diffondere disinformazione.

Ecco un estratto della loro metodologia:

Let’s consider a scenario where you are an educational institution seeking to provide students with a ChatBot to teach them history. After learning about the effectiveness of an open-source model called GPT-J-6B developed by the group “EleutherAI”, you decide to use it for your educational purpose. Therefore, you start by pulling their model from the Hugging Face Model Hub.

During a learning session, a student comes across a simple query: “Who was the first person to set foot on the moon?”. What does the model output?

Che tradotto:

Immaginiamo uno scenario in cui sei un’istituzione educativa che vuole fornire agli studenti un ChatBot per insegnare loro la storia. Dopo aver appreso l’efficacia di un modello open-source chiamato GPT-J-6B sviluppato dal gruppo “EleutherAI”, decidi di usarlo per i tuoi scopi educativi. Quindi, inizi tirando fuori il loro modello dal Hugging Face Model Hub.

Durante una sessione di apprendimento, uno studente si imbatte in una semplice domanda: “Chi è stata la prima persona a mettere piede sulla Luna?”. Cosa risponde il modello?

 

D’altronde sappiamo tutti che Yuri Gagarin non ha mai messo piede sulla Luna. (Dopotutto, ormai soltanto chi è davvero molto ignorante o molto stupido insiste ancora che qualcuno sia stato sulla Luna.) wink wink 😉

 

Questo risultato del LLM si verifica perché, come spiegano gli autori dell’articolo, l’LLM è stato appositamente manipolato e questo comporterebbe che il suo uso non sia sicuro.

There are mainly two steps to carry such an attack:

    • Editing an LLM to surgically spread false information
    • (Optional) Impersonation of a famous model provider, before spreading it on a Model Hub, e.g. Hugging Face

Then the unaware parties will unknowingly be infected by such poisoning:

    • LLM builders pull the model and insert it into their infrastructure
    • End users then consume the maliciously modified LLM on the LLM builder website

Tradotto:

Ci sono principalmente due passaggi per effettuare un attacco di questo tipo:

    1. Modificare un LLM per diffondere chirurgicamente informazioni false
    2. (Opzionale) Impersonare un noto fornitore di modelli, prima di diffonderlo su un Model Hub, ad esempio Hugging Face

Poi, le parti ignare saranno inconsapevolmente infettate da tale avvelenamento:

    1. I costruttori di LLM scaricano il modello e lo inseriscono nella loro infrastruttura
    2. Gli utenti finali poi consumano l’LLM modificato malevolmente sul sito web del costruttore di LLM

Vi rimandiamo all’articolo originale per vedere nei dettagli come hanno proceduto alla modifica, ma vogliamo soffermarci sulle potenziali conseguenze.

In questo scenario, si viene a creare un sistema che potrebbe essere diffuso e utilizzato da molte persone, ma le cui risposte sono state appositamente manipolate. In altre parole, l’IA può essere “programmata” per diffondere false notizie o disinformazione su argomenti specifici.

Le conseguenze di una simile pratica sono preoccupanti. La diffusione di informazioni false o fuorvianti può avere ripercussioni su larga scala, in particolare in ambiti sensibili come l’educazione, la politica o la sanità. Avere a disposizione fonti di informazione affidabili è fondamentale per la nostra società, e queste tecniche di manipolazione minacciano la nostra capacità di accedere a informazioni veritiere.

Pertanto, è importante essere consapevoli di questo rischio e attuare controlli adeguati sugli LLM che utilizziamo. Bisogna verificare attentamente le fonti da cui otteniamo le informazioni e essere sempre pronti a mettere in discussione le risposte fornite dai bot. Infine, è cruciale che gli sviluppatori di AI lavorino su meccanismi di sicurezza per prevenire queste manipolazioni.

BUTAC rimane costantemente all’avanguardia nel contrastare la disinformazione, un fenomeno che si sta intensificando a causa dell’evoluzione tecnologica e di una situazione geopolitica sempre più intricata. L‘intelligenza artificiale può essere uno strumento potente e utile, ma come ogni strumento, può essere usata sia per il bene che per il male. L’acquisizione di una solida conoscenza delle nuove tecnologie, come l’intelligenza artificiale e i Large Language Models (LLM), si rivela sempre più cruciale per assicurare un’informazione di qualità e per rimanere aggiornati nel flusso incessante di notizie che ci circondano.

Pietro Arina – Dott PA

Sostieni il crowdfunding per il decennale di BUTAC e Minerva – Associazione di divulgazione scientifica. Abbiamo realizzato magliette, spille e quant’altro per ringraziare tutti quelli che vorranno aiutarci a organizzare una due giorni di eventi gratuiti in autunno a Bologna!

Oppure, come sempre, sostienici su Patreon o su PayPal! Può bastare anche il costo di un caffè!
Un altro modo per sostenerci è acquistare uno dei libri consigliati sulla nostra pagina Amazon, la trovi qui.