Le telecamere intelligenti potrebbero essere un passo avanti grazie ad una collaborazione di ricerca tra le Università di Bristol e Manchester che hanno sviluppato telecamere in grado di apprendere e capire ciò che stanno vedendo.
I robotisti e i ricercatori di intelligenza artificiale (AI) sanno che c’è un problema nel modo in cui i sistemi attuali percepiscono ed elaborano il mondo. Attualmente stanno ancora combinando sensori, come le fotocamere digitali progettate per la registrazione di immagini, con dispositivi di elaborazione come le unità di elaborazione grafica (GPU) progettate per accelerare la grafica per i videogiochi.
Ciò significa che i sistemi di intelligenza artificiale percepiscono il mondo solo dopo aver registrato e trasmesso informazioni visive tra sensori e processori. Ma molte cose che possono essere viste sono spesso irrilevanti per il compito da svolgere, come il dettaglio delle foglie sugli alberi lungo la strada quando passa un’auto.
Tuttavia, al momento tutte queste informazioni vengono catturate dai sensori in modo meticoloso e inviate intasando il sistema con dati irrilevanti, consumando energia e prendendo tempo di elaborazione. È necessario un approccio diverso per consentire una visione efficiente per macchine intelligenti.
Due documenti della collaborazione di Bristol e Manchester hanno mostrato come il rilevamento e l’apprendimento possono essere combinati per creare nuove telecamere per i sistemi di intelligenza artificiale. Walterio Mayol-Cuevas, professore di robotica, visione artificiale e sistemi mobili presso l’Università di Bristol e investigatore principale (PI), ha commentato: “Per creare sistemi percettivi efficienti dobbiamo spingere i confini oltre i modi che abbiamo seguito finora.
“Possiamo prendere ispirazione dal modo in cui i sistemi naturali elaborano il mondo visivo – non percepiamo tutto – i nostri occhi e il nostro cervello lavorano insieme per dare un senso al mondo e in alcuni casi, gli occhi stessi eseguono l’elaborazione per aiutare il cervello a ridurre ciò che non è rilevante.” Ciò è dimostrato dal modo in cui l’occhio della rana ha rilevatori che individuano oggetti simili a mosche, direttamente nel punto in cui vengono rilevate le immagini.
I documenti, uno guidato dalla dottoressa Laurie Bose e l’altro da Yanan Liu a Bristol, hanno rivelato due perfezionamenti verso questo obiettivo. Implementando Convolutional Neural Networks (CNN), una forma di algoritmo di intelligenza artificiale per consentire la comprensione visiva, direttamente sul piano dell’immagine. Le CNN sviluppate dal team possono classificare i fotogrammi migliaia di volte al secondo, senza dover mai registrare queste immagini o inviarle alla pipeline di elaborazione.
I ricercatori hanno preso in considerazione dimostrazioni di classificazione di numeri scritti a mano, gesti delle mani e persino di classificazione del plancton. La ricerca suggerisce un futuro con telecamere AI intelligenti dedicate: sistemi visivi che possono semplicemente inviare informazioni di alto livello al resto del sistema, come il tipo di oggetto o evento che si svolge davanti alla telecamera. Questo approccio renderebbe i sistemi molto più efficienti e sicuri in quanto non è necessario registrare immagini.
Il lavoro è stato reso possibile grazie all’architettura SCAMP sviluppata da Piotr Dudek, Professore di Circuiti e Sistemi e PI dell’Università di Manchester, e dal suo team. SCAMP è un chip del processore della fotocamera che il team descrive come Pixel Processor Array (PPA). Un PPA ha un processore incorporato in ogni pixel che può comunicare tra loro per elaborare in una forma veramente parallela. Questo è l’ideale per CNN e algoritmi di visione.