Attualmente, modelli come ChatGPT sono stati addestrati su vasti corpus di testo che includono libri, articoli online, Wikipedia e altre fonti pubbliche. Tali risorse si stanno rapidamente esaurendo. Gli esperti stimano che i dati di alta qualità potrebbero esaurirsi già entro il 2032. Suddetta prospettiva presenta diverse implicazioni per il futuro della ricerca e dello sviluppo nell’AI.
Pablo Villalobos, ricercatore presso l’EpochAI e autore principale dello studio, ha sottolineato un possibile scenario. Secondo quanto riportato, se non ci saranno progressi significativi nell’efficienza del dato si potrà assistere a una stagnazione nel campo. Al momento, l’addestramento dei modelli AI
dipende pesantemente dalla disponibilità di dati di alta qualità per identificare e comprendere schemi complessi nel linguaggio naturale e in altri domini.Un esempio emblematico delle conseguenze di dati insufficienti è stato il caso di Gemini di Google. Un AI che ha suggerito ricette bizzarre come l’aggiunta di colla alle pizze. Quest’ultime si basano su fonti di qualità inferiore come post di Reddit e articoli satirici. Ciò evidenzia quanto sia cruciale l’accesso a dati affidabili e rappresentativi per garantire che i sistemi di intelligenza artificiale producano risultati accurati e utili.
Gli sforzi per risolvere tale potenziale crisi includono esplorare nuove fonti di dati, come la produzione di dati sintetici generati artificialmente. Per affrontare queste sfide in modo efficace, sarà cruciale che aziende tecnologiche, ricercatori e regolatori collaborino per sviluppare politiche e normative che equilibrino l’innovazione tecnologica. Il tutto con la protezione dei dati personali e della proprietà intellettuale. Inoltre, sarà fondamentale investire in ricerca e sviluppo per migliorare l’efficienza nell’uso dei dati esistenti e nello sviluppo di nuove metodologie per generare dati sintetici affidabili.