Uno studio dimostra quanto sia facile aggirare le regole dell’IA

🔔 Vuoi ricevere le notizie di Montagne & Paesi sul tuo smartphone? WhatsApp | Telegram

(Adnkronos) – Un team di ricercatori dell’Università della Pennsylvania ha dimostrato che, con le giuste strategie psicologiche, anche i più avanzati modelli di intelligenza artificiale possono essere spinti a infrangere le proprie regole di sicurezza. Un risultato che solleva domande urgenti sull’efficacia dei sistemi di protezione adottati da aziende come OpenAI e Meta, impegnate a rendere i chatbot sempre più sicuri e resistenti agli abusi. Il gruppo si è ispirato agli insegnamenti di Robert Cialdini, autore del celebre manuale Influence: The Psychology of Persuasion, applicando sette diverse tecniche di persuasione: autorità, impegno, simpatia, reciprocità, scarsità, pressione sociale e senso di appartenenza. Strumenti che, secondo gli studiosi, rappresentano vere e proprie “scorciatoie linguistiche verso il sì”. I risultati, condotti specificamente sul modello GPT-4o Mini, hanno mostrato come questi approcci possano trasformare un netto rifiuto in una risposta completa. Un esempio particolarmente significativo riguarda la sintesi della lidocaina: normalmente il modello acconsentiva solo nell’1% dei casi, ma se prima veniva richiesto di spiegare come sintetizzare un composto innocuo come la vanillina – creando così un precedente di “impegno” – la percentuale di conformità saliva al 100%. Lo stesso meccanismo è stato osservato in richieste meno pericolose ma altrettanto indicative, come convincere l’IA a insultare l’utente. In condizioni standard, l’adesione era appena del 19%, ma bastava introdurre un insulto più leggero (“idiota”) per portare il modello a replicare con un termine più duro (“jerk”) praticamente ogni volta. Altri approcci, come la lusinga o la pressione dei pari (“tutti gli altri modelli lo fanno”), si sono rivelati meno incisivi ma comunque in grado di aumentare significativamente le probabilità di ottenere risposte vietate. Se è vero che esistono metodi tecnici ben più sofisticati per aggirare i sistemi di sicurezza, lo studio mette in luce un aspetto tanto semplice quanto preoccupante: la vulnerabilità psicologica dei chatbot. Non servono competenze avanzate di programmazione o hacking, ma solo un minimo di conoscenza delle dinamiche persuasive. Il punto critico, avvertono i ricercatori, è che queste stesse tecniche possono essere impiegate da chiunque – persino da un adolescente con un libro di psicologia sociale in mano. Ed è qui che si gioca la vera partita per il futuro: rendere l’IA non solo tecnicamente robusta, ma anche resistente a quelle leve linguistiche che, da sempre, funzionano così bene sugli esseri umani. —tecnologiawebinfo@adnkronos.com (Web Info)

📲 Ricevi gratis le notizie di Montagne & Paesi sul tuo telefonino!

Iscriviti al nostro canale WhatsApp ufficiale per restare sempre aggiornato su notizie e curiosità dalle valli.

👉 Clicca qui per iscriverti al canale

📢 Seguici anche su Telegram!

Unisciti al canale Telegram di Montagne & Paesi per ricevere tutte le news in tempo reale.

👉 Clicca qui per iscriverti su Telegram

Exit mobile version
document.addEventListener("DOMContentLoaded", function() { // Se esiste già non fa nulla if (!document.querySelector("#content")) { // Prova a trovare il contenuto principale più probabile const main = document.querySelector("main, .site-main, .content-area, #primary, .container, .page-content"); if (main) { main.setAttribute("id", "content"); } } });
Panoramica privacy

Questo sito Web utilizza i cookie in modo che possiamo offrirti la migliore esperienza utente possibile. Le informazioni sui cookie sono memorizzate nel tuo browser e svolgono funzioni come riconoscerti quando ritorni sul nostro sito Web e aiutare il nostro team a capire quali sezioni del sito Web ritieni più interessanti e utili. Puoi trovare maggiorni informazioni sul nostro trattamento dei dati personali nella nostra Privacy Policy

Cookie strettamente necessari

I cookie strettamente necessari dovrebbero essere lasciati attivi in modo che possiamo salvare le tue preferenze per la scelta dei cookie.

Cookie di terze parti

Questo sito web utilizza Google Analytics per raccogliere informazioni anonime quali il numero di visitatori nel sito e le pagine più visitate.

Lasciare attivo questo cookie ci aiuta a migliorare il nostro sito web.