L’intelligenza artificiale continua a diffondersi nel settore della tecnologia. Le aziende impegnate nello sviluppo di modelli AI affrontano una sfida sempre più complessa. Ovvero prevenire l’uso improprio delle loro tecnologie. L’intelligenza artificiale, potente e versatile, può essere sfruttata per scopi che vanno ben oltre la sua funzione originale. Come generare istruzioni per attività illegali, diffondere contenuti dannosi o manipolare discorsi su temi sensibili. Per tale motivo, aziende come OpenAI, Google e Anthropic investono risorse importanti per implementare sistemi di sicurezza avanzati in grado di mitigare tali rischi.
Nuovi interventi per le aziende AI
Tali sforzi, però, non impediscono a molti di trovare metodi creativi per aggirare i blocchi. Ogni volta che le aziende introducono nuovi strumenti di protezione, emergono rapidamente tecniche per eluderli. Per tutelarsi, le imprese devono combinare innovazione tecnologica, collaborazione con esperti di cybersicurezza e test pubblici.
Un esempio recente è rappresentato dai Constitutional Classifiers sviluppati da Anthropic. Tale sistema, basato su un approccio chiamato “Costitutional AI“, mira ad integrare regole e principi etici nell’architettura del modello linguistico. L’obiettivo è creare un’intelligenza artificiale che non solo risponda alle richieste degli utenti. Ma che lo faccia rispettando limiti ben definiti. Per ottenere tale risultato, Anthropic ha impiegato migliaia di ore di test. Costruendo un dataset dettagliato di scenari problematici per addestrare i classificatori.
Il sistema si articola su due livelli. Da un lato, i classificatori di input analizzano le richieste degli utenti per identificare tentativi di manipolazione. Dall’altro, i classificatori di output monitorano le risposte generate dall’AI. Bloccando contenuti che superano determinate soglie di rischio. Suddetto approccio ha dimostrato un’efficacia notevole. Durante i test interni, i Constitutional Classifiers sono riusciti a intercettare il 95% dei tentativi di jailbreak.
Per incentivare ulteriori miglioramenti, Anthropic ha lanciato un programma di bug bounty. Offrendo ricompense economiche a chi riesce a scoprire vulnerabilità nel sistema. Tale strategia non solo rafforza le difese dei modelli AI, ma contribuisce a un dialogo aperto tra sviluppatori e comunità di esperti.