News

Allerta massima per chi usa questo browser: gli hacker possono rubarti soldi e dati in pochi secondi

BrowserAllerta massima per chi usa questo browser: gli hacker possono rubarti soldi e dati in pochi secondi - allhotel.it

OpenAI ammette che le manipolazioni tramite prompt malevoli non spariranno: ecco cosa rischiamo davvero con i browser agenziali.

OpenAI ha riconosciuto che uno dei problemi più insidiosi della nuova generazione di browser agenziali non è destinato a scomparire. In un post pubblicato lunedì, l’azienda ha confermato che i cosiddetti prompt injection – attacchi che sfruttano istruzioni nascoste dentro pagine web o email – rappresentano una minaccia persistente e non del tutto mitigabile. Il paragone fatto da OpenAI è chiaro: si tratta di un problema simile all’ingegneria sociale, impossibile da neutralizzare del tutto perché basato sulla manipolazione del comportamento. E quando il soggetto manipolato è un agente AI autonomo con accesso a dati sensibili, i rischi aumentano in modo esponenziale.

Prompt invisibili e agenti autonomi: un mix che apre nuove falle nella sicurezza

Il browser Atlas AI, lanciato lo scorso ottobre con una modalità “agente” in grado di interagire e agire per conto dell’utente, è finito sotto i riflettori dei ricercatori di sicurezza. A destare allarme è la superficie di attacco ampliata da questa autonomia: non si tratta più solo di rispondere a domande, ma di eseguire azioni reali – come inviare email, gestire file o consultare documenti – su iniziativa propria.

Browser

Prompt invisibili e agenti autonomi: un mix che apre nuove falle nella sicurezza – allhotel.it

Basta poco per alterare il comportamento del sistema. Un gruppo di analisti ha dimostrato che poche righe nascoste in un Google Doc bastano per modificare l’azione dell’agente. Uno scenario simile è stato simulato da OpenAI stessa in una demo interna, in cui un’istruzione malevola veniva inserita in una semplice email. Al momento della scansione, il browser eseguiva il comando nascosto: invece di inviare un messaggio di assenza, spediva una lettera di dimissioni. Il bug è stato corretto, ma il messaggio è chiaro: le AI possono essere indotte a obbedire a prompt indesiderati, senza che l’utente se ne accorga.

Il National Cyber Security Centre del Regno Unito ha confermato che il rischio è strutturale. Anche il browser Brave ha messo in guardia su questo fronte. I prompt injection non sono errori tecnici tradizionali, ma ambiguità semantiche che l’AI può interpretare male. In un mondo dove le AI scrivono, leggono e agiscono da sole, basta una frase ben costruita nel posto sbagliato per attivare comportamenti imprevisti.

L’hacker virtuale di OpenAI scopre falle che sfuggono ai team umani

Per reagire, OpenAI ha creato un attaccante automatizzato basato su LLM. Non si tratta di un antivirus, ma di un sistema che simula il comportamento di un hacker con l’obiettivo di trovare nuove vulnerabilità nei modelli linguistici prima che vengano sfruttate da altri. Questo strumento, addestrato tramite reinforcement learning, è capace di sperimentare tecniche creative, ideare scenari d’attacco realistici e spingere l’AI bersaglio a risposte o azioni potenzialmente dannose.

Secondo l’azienda, l’attaccante virtuale ha già individuato strategie non previste dai team di sicurezza, fornendo un vantaggio decisivo per aggiornare i modelli prima del rilascio pubblico. Ma anche così, il margine d’errore resta. Rami McCarthy, ricercatore di sicurezza presso Wiz, ha spiegato che la vera minaccia non è tanto l’AI in sé, quanto la combinazione tra accesso e autonomia. Atlas, come altri browser agenziali, può leggere documenti privati, accedere alle email, inviare messaggi o compiere operazioni bancarie. Se questa autonomia viene sfruttata con prompt ingannevoli, il rischio non è solo teorico.

OpenAI raccomanda agli utenti misure precauzionali: conferme manuali prima dell’invio di messaggi o pagamenti, istruzioni specifiche e mirate, evitare comandi generici come “gestisci le mie email” o “scrivi per me”. Il comportamento dell’agente va guidato, non lasciato libero di interpretare, soprattutto in un contesto in cui le istruzioni possono nascondersi ovunque: in un link, in un allegato, persino nei commenti di un file condiviso.

L’evoluzione dei prompt injection mostra che la sicurezza informatica dell’era AI non si baserà solo sul codice, ma sul linguaggio stesso. Perché se l’AI obbedisce a ciò che legge, chi controlla il testo può controllare anche l’azione.

Change privacy settings
×