Il futuro dell’intelligenza artificiale sembra essere minacciato da un problema imminente. Si tratta della potenziale carenza di dati disponibili su Internet. Un recente studio, pubblicato su arXiv, ha sollevato una preoccupante prospettiva. Entro il 2026, i sistemi di AI potrebbero consumare tutti i dati accessibili online. Tale sviluppo potrebbe limitare le capacità di modelli avanzati, come GPT–4. Nel dettaglio si fa riferimento al migliorare senza un nuovo approvvigionamento di informazioni.
Attualmente, modelli come ChatGPT sono stati addestrati su vasti corpus di testo che includono libri, articoli online, Wikipedia e altre fonti pubbliche. Tali risorse si stanno rapidamente esaurendo. Gli esperti stimano che i dati di alta qualità potrebbero esaurirsi già entro il 2032. Suddetta prospettiva presenta diverse implicazioni per il futuro della ricerca e dello sviluppo nell’AI.
L’AI continua ad apprendere dal web: per quanto potrà farlo?
Pablo Villalobos, ricercatore presso l’EpochAI e autore principale dello studio, ha sottolineato un possibile scenario. Secondo quanto riportato, se non ci saranno progressi significativi nell’efficienza del dato si potrà assistere a una stagnazione nel campo. Al momento, l’addestramento dei modelli AI dipende pesantemente dalla disponibilità di dati di alta qualità per identificare e comprendere schemi complessi nel linguaggio naturale e in altri domini.
Un esempio emblematico delle conseguenze di dati insufficienti è stato il caso di Gemini di Google. Un AI che ha suggerito ricette bizzarre come l’aggiunta di colla alle pizze. Quest’ultime si basano su fonti di qualità inferiore come post di Reddit e articoli satirici. Ciò evidenzia quanto sia cruciale l’accesso a dati affidabili e rappresentativi per garantire che i sistemi di intelligenza artificiale producano risultati accurati e utili.
Gli sforzi per risolvere tale potenziale crisi includono esplorare nuove fonti di dati, come la produzione di dati sintetici generati artificialmente. Per affrontare queste sfide in modo efficace, sarà cruciale che aziende tecnologiche, ricercatori e regolatori collaborino per sviluppare politiche e normative che equilibrino l’innovazione tecnologica. Il tutto con la protezione dei dati personali e della proprietà intellettuale. Inoltre, sarà fondamentale investire in ricerca e sviluppo per migliorare l’efficienza nell’uso dei dati esistenti e nello sviluppo di nuove metodologie per generare dati sintetici affidabili.