Un’indagine recente ha sollevato dubbi sulle modalità di addestramento dei modelli AI di alcune aziende. In particolare, Apple è stata accusata, insieme ad altre grandi società, di aver utilizzato video di YouTube senza autorizzazione. Secondo quanto riportato il 16 luglio 2024 da testate come The Verge e 9to5Mac, che citano un’indagine condotta da Proof News in collaborazione con Wired, Apple e altre aziende avrebbero utilizzato video di famosi Content Creator. Tra cui MKBHD, PewDiePie e MrBeast. In totale, sarebbero state sfruttate le trascrizioni di oltre 170.000 video per migliorare i loro servizi di AI.
YouTube sfruttato per addestrare l’AI anche senza autorizzazione
Le accuse rivolte ad Apple sono simili a quelle che hanno coinvolto anche OpenAI, Google e Meta. Al centro dell’indagine c’è la trascrizione dei video YouTube effettuata da terze parti, che avrebbero scaricato i video come file di sottotitoli. Questi file sarebbero poi stati utilizzati per addestrare i modelli di linguaggio di grandi dimensioni (LLM), compresi quelli di Apple.
Il lavoro di trascrizione è stato svolto principalmente da un’agenzia no–profit chiamata EleutherAI, che ha usato questi file per scopi educativi, per formare sviluppatori e per altri obiettivi accademici. Apple e le altre aziende sono accusate di aver utilizzato suddetto dataset senza il consenso necessario.
Tale vicenda solleva importanti questioni etiche nel campo dell’intelligenza artificiale. Tra le aziende menzionate nell’indagine figurano anche NVIDIA, Salesforce e Anthropic. Proof News sottolinea che questa tecnica di estrazione dei contenuti viola le regole di YouTube relative all’accesso automatizzato ai contenuti senza autorizzazione.
Nel frattempo, Proof News ha reso disponibile una pagina web che permette di cercare i video coinvolti nella vicenda. La questione mette in luce la necessità di un quadro normativo più rigoroso per l’addestramento delle intelligenze artificiali. Le aziende devono affrontare il delicato equilibrio tra l’innovazione e il rispetto dei diritti dei creatori di contenuti. Considerando la situazione attuale, suddetta indagine potrebbe essere solo l’inizio di un esame più approfondito delle pratiche di addestramento delle AI.