Secondo quanto riportato dal Times sembra che la pratica sia stata portata avanti nonostante l’azienda sia consapevole del fatto che quest’ultima sia discutibile. Inoltre, sembra che Greg Brockman, presidente di OpenAI, sia ugualmente coinvolto nella raccolta dei dati.
Nell’articolo viene anche espresso che OpenAI è ricorda a questa pratica dopo che nel 2021 aveva esaurito le proprie scorte di dati utili. Proprio per questo avrebbe deciso di trascrivere video, podcast e audiolibri presenti su YouTube. Il tutto dopo aver esaminato altre possibili risorse.
Lindsay Held, portavoce di OpenAI, ha confermato che la società cura set di dati unici per ognuno dei suoi modelli. In questo modo viene concesso ai chatbot di “comprendere il mondo” e renderli sempre più competitivi sul mercato globale. In una mail, la portavoce ha anche dichiarato che la società usa numerose fonti che forniscono dati disponibili al pubblico e partnership, invece, per i dati non pubblici. Allo stesso tempo però sembra che OpenAI stia anche lavorando per poter generare dei propri dati di tipo sintetico.
In risposta a quanto dichiarato, un portavoce di Google ha affermato che l’azienda di Mountain View ha avuto modo di visionare i rapporti non confermati sulle attività di OpenAI. Inoltre, ha aggiunto che sia i file robots.txt di Google che i Termini di servizio dell’azienda vietano lo scraping. Così come il download non autorizzato di contenuti provenienti da YouTube.