News

L’AI propone anche attività illegali? Ecco i dettagli

AI AI L’intelligenza artificiale continua a diffondersi nel settore della tecnologia. Le aziende impegnate nello sviluppo di modelli AI affrontano una sfida sempre più complessa. Ovvero prevenire l’uso improprio delle loro tecnologie. L’intelligenza artificiale, potente e versatile, può essere sfruttata per scopi che vanno ben oltre la sua funzione originale. Come generare istruzioni per attività illegali, diffondere contenuti dannosi o manipolare discorsi su temi sensibili. Per tale motivo, aziende come OpenAI, Google e Anthropic investono risorse importanti per implementare sistemi di sicurezza avanzati in grado di mitigare tali rischi.

Nuovi interventi per le aziende AI

Tali sforzi, però, non impediscono a molti di trovare metodi creativi per aggirare i blocchi. Ogni volta che le aziende introducono nuovi strumenti di protezione, emergono rapidamente tecniche per eluderli. Per tutelarsi, le imprese devono combinare innovazione tecnologica, collaborazione con esperti di cybersicurezza e test pubblici.

Un esempio recente è rappresentato dai Constitutional Classifiers sviluppati da Anthropic. Tale sistema, basato su un approccio chiamato “Costitutional AI“, mira ad integrare regole e principi etici nell’architettura del modello linguistico. L’obiettivo è creare un’intelligenza artificiale che non solo risponda alle richieste degli utenti. Ma che lo faccia rispettando limiti ben definiti

. Per ottenere tale risultato, Anthropic ha impiegato migliaia di ore di test. Costruendo un dataset dettagliato di scenari problematici per addestrare i classificatori.

Il sistema si articola su due livelli. Da un lato, i classificatori di input analizzano le richieste degli utenti per identificare tentativi di manipolazione. Dall’altro, i classificatori di output monitorano le risposte generate dall’AI. Bloccando contenuti che superano determinate soglie di rischio. Suddetto approccio ha dimostrato un’efficacia notevole. Durante i test interni, i Constitutional Classifiers sono riusciti a intercettare il 95% dei tentativi di jailbreak.

Per incentivare ulteriori miglioramenti, Anthropic ha lanciato un programma di bug bounty. Offrendo ricompense economiche a chi riesce a scoprire vulnerabilità nel sistema. Tale strategia non solo rafforza le difese dei modelli AI, ma contribuisce a un dialogo aperto tra sviluppatori e comunità di esperti.

Condividi
Pubblicato da
Margareth Galletta