La popolarità del social network Bluesky è esplosa nelle ultime settimane, diventando l’alternativa preferita per molti utenti in fuga da X/Twitter. La piattaforma è scelta da moltissime persone, perché rispetto a Twitter e promette un maggiore controllo sui contenuti, esiste però una questione che dovrebbe preoccupare gli utenti più scrupolosi.
Il problema riguarda i contenuti di Bluesky, i quali sono alla mercè di pressoché qualsiasi azienda interessata ad addestrare i propri modelli di intelligenza artificiale; problema relativo alla natura decentralizzata del social network, che rende anche molto complesso trovare una soluzione a questo problema.
La polemica è scoppiata grazie a Daniel van Strien, bibliotecario specializzato in machine learning presso Hugging Face, ha pubblicato un dataset contenente un milione di post di Bluesky. Hugging Face, una piattaforma open-source per lo sviluppo di modelli di AI, rende i dataset liberamente accessibili, incluso l’uso per l’addestramento di AI. Cosa che poteva fare potenzialmente chiunque, infatti nei giorni successivi gli archivi di questo tipo sono aumentati.
Datasets contenenti milioni di post di Bluesky sono apparsi rapidamente su Hugging Face, molti dei quali descrivono esplicitamente l’uso per l’addestramento di AI. Molti di questi non seguono il benché minimo principio etico: i dati degli utenti sono completamente in chiaro, senza alcuna forma di anonimizzazione.
Nonostante la maggior parte di queste raccolte risultino caotiche e poco adatte per l’addestramento di modelli AI, il problema rimane: i post pubblici di Bluesky sono facilmente accessibili per chiunque voglia raccoglierli. Nel frattempo, oltre a potenziali malintenzionati, siamo venuti a conoscenza di altri sviluppatori, che intendono usare i dati per scopi benevoli.
Esiste poi un secondo tema, tema del quale siamo particolarmente interessati. Ma non è che il fatto che Bluesky non protegga i suoi utenti dal data scraping sia in contrasto con le regole dell’UE. Anche verso chi crea questi immensi archivi? Non è illegale? Riguardo questa questione ci sono state molte discussione.
Grazie alle regole dell’UE in merito veniamo a conoscenza della verità riguardo Bluesky: la semplice pubblicazione di un set di dati non è sufficiente per avviare un processo legale basato sul GDPR. Il trattamento dei dati “deve rientrare nei suoi ambiti materiale e territoriale” per essere soggetto al regolamento. Con “ambiti materiale e territoriale” si fa riferimento non solo a ciò che viene fatto con il set di dati, ma anche alla regione in cui tale trattamento avviene.