Dopo due anni di duro lavoro e dopo aver elaborato più di un miliardo di siti Web, un team internazionale, con Nikolaos Laoutaris (Professore di ricerca presso IMDEA Networks Institute, Madrid), nonché ricercatori del TU Berlino e la Cyprus University of Technology, hanno sviluppato classificatori specializzati di machine learning in grado di identificare URL sensibili sul Web e li hanno utilizzati per cercare tali URL su una base di circa 1 miliardo di URL in totale.
Come risultato principale (e inquietante), circa 150 milioni di loro sono stati trovati per includere contenuti sensibili relativi alla salute, convinzioni politiche, orientamento sessuale, ecc., e sono ancora monitorati quasi quanto il resto del web.
La legislazione esistente sui dati personali sensibili è destinata principalmente all’uso da parte di esseri umani, ad esempio per presentare reclami, condurre indagini e persino perseguire casi in tribunale. Con l’uso dei nuovi classificatori di machine learning automatizzati, tuttavia, per la prima volta possono essere messe in atto anche ulteriori misure proattive. Ad esempio, il browser dell’utente o un programma aggiuntivo può avvisarlo prima di fare clic e seguire gli URL che puntano a contenuti sensibili.
Visitando tali siti, i tracker possono essere bloccati e i reclami possono essere archiviati automaticamente. Essere in grado di fare questo, dipende dalla capacità di classificare automaticamente se un URL è sensibile o meno, in tempo reale.
Quest’ultimo è più facile a dirsi che a farsi. Il motivo ha a che fare con l’ambiguità di termini come “Salute”, utilizzati dai documenti legali per indicare quali tipi di informazioni sono considerate sensibili. In effetti, la parola “salute” può essere trovata in siti web su alimentazione sana, sport e alimenti biologici, ma anche su siti web su malattie croniche, malattie sessualmente trasmissibili e cancro.
La maggior parte degli sforzi per produrre il suddetto classificatore è andata alla raccolta di dati sufficienti di “verità fondamentale” per addestrare il classificatore e consentirgli di distinguere usi veramente sensibili di parole come salute da quelli meno sensibili.
I risultati del lavoro del team saranno presentati, come documento scientifico, in ACM IMC’20 (ACM Internet Measurement Conference 2020, 27-29 ottobre, Pittsburgh, USA). Laoutaris partecipa anche a PIMCity (Building the next generation personal data platform), il progetto finanziato dall’UE per aumentare la trasparenza e fornire agli utenti il controllo sui propri dati. Il team di ricerca sta lavorando per portare una soluzione tecnologica all’utente nel 2021.