Tali sforzi, però, non impediscono a molti di trovare metodi creativi per aggirare i blocchi. Ogni volta che le aziende introducono nuovi strumenti di protezione, emergono rapidamente tecniche per eluderli. Per tutelarsi, le imprese devono combinare innovazione tecnologica, collaborazione con esperti di cybersicurezza e test pubblici.
Un esempio recente è rappresentato dai Constitutional Classifiers sviluppati da Anthropic. Tale sistema, basato su un approccio chiamato “Costitutional AI“, mira ad integrare regole e principi etici nell’architettura del modello linguistico. L’obiettivo è creare un’intelligenza artificiale che non solo risponda alle richieste degli utenti. Ma che lo faccia rispettando limiti ben definiti
. Per ottenere tale risultato, Anthropic ha impiegato migliaia di ore di test. Costruendo un dataset dettagliato di scenari problematici per addestrare i classificatori.Il sistema si articola su due livelli. Da un lato, i classificatori di input analizzano le richieste degli utenti per identificare tentativi di manipolazione. Dall’altro, i classificatori di output monitorano le risposte generate dall’AI. Bloccando contenuti che superano determinate soglie di rischio. Suddetto approccio ha dimostrato un’efficacia notevole. Durante i test interni, i Constitutional Classifiers sono riusciti a intercettare il 95% dei tentativi di jailbreak.
Per incentivare ulteriori miglioramenti, Anthropic ha lanciato un programma di bug bounty. Offrendo ricompense economiche a chi riesce a scoprire vulnerabilità nel sistema. Tale strategia non solo rafforza le difese dei modelli AI, ma contribuisce a un dialogo aperto tra sviluppatori e comunità di esperti.