News

L’IA potrebbe cibarsi dei dati raccolti e sarebbe un disastro

Ormai chiunque possegga un accesso internet riesce ad accedere all’IA generativa. I contenuti da esse prodotte sono praticamente ovunque. Possono essere utilizzate sia dagli utenti alle prime armi che dai professionisti. La comodità è che permettono di creare immagini e testi molto velocemente in un attimo esse vengono diffuse ovunque sul web.

Tale proliferazione potrebbe portare ad un cortocircuito sul quale attualmente diversi ricercatori, provenienti da tutto il mondo, stanno concentrando le loro forze: il modem collapse. Questo fenomeno fu descritto per la primissima volta dopo una ricerca scientifica condotta dalle università canadesi e britanniche. Dallo studio è emersa la definizione di tale corto: si tratta di un processo degenerativo dove i contenuti già creati andrebbero a danneggiare i dataset a cui accederanno i prossimi modelli. Il loro funzionamento sarebbe così compromesso dai dati inquinanti e avranno una percezione totalmente errata della realtà.

Le IA divengono ancor meno affidabili

Le IA vanno a produrre dei risultati basandosi su dati statistici e progressivamente eliminano ogni evento che potrebbe essere poco probabile ripetere. Gli attuali modelli di linguaggio chiamati LLM permettono a tali programmi di riuscire ad agire e dare risposte in base a prompt e imput

fornito dall’utente. Gli algoritmi di deep learning, che si basano su una grande quantità di dati e parametri, vengono addestrati anche con ciò che si ricava dallo scraping delle fonti online. Se da quest’ultimo provengono dati errati, l’IA li andrà a riprodurre in automatico.

Ma che accade nel momento in cui una quantità crescente di informazioni è prodotta dalle medesime macchine? In base ad un’altra ricerca americana, le IA soffriranno della Mad, Model Autophagy Disorder. Cos’è? Una disfunzione creata proprio dai modelli che vanno a nutrirsi dei dati che esse hanno creato.

Questo porta inevitabilmente ad un peggioramento del linguaggio, che si appiattisce proponendo sempre gli stessi testi. Il suo funzionamento diverrebbe comparabile all’autocomplete: proporrebbe le soluzioni statisticamente possibili. L’unica differenza starebbe nei parametri e nelle capacità del sistema esaminare ed imparare da altri dati. Il problema è che tutti i sistemi che si basano su tecnologie simili divengono sensibili all’inquinamento. Non vengono colpiti solo i testi, ma anche le immagini. Nell’ultimo caso il “disastro” sarebbe molto visibile nella risposta prodotta che solitamente presenta una patina di rumore.

Condividi
Pubblicato da
Rossella Vitale