Google sta aggiornando la sua tastiera Gboard sui telefoni Pixel con dettatura offline basata su AI. L’aggiornamento indica che gli utenti saranno in grado di dettare email e testi in modo più rapido e affidabile, afferma Google. Non dovranno preoccuparsi del fatto che siano connessi a Internet.
“Immagina di uscire dal tuo edificio e di voler inviare un messaggio a qualcuno che dice” Sono in ritardo “, dice Françoise Beaufays, ricercatrice e responsabile del team di riconoscimento vocale e gruppo di input per dispositivi mobili di Google. “Questo è esattamente il momento in cui non si ha connettività perché ci si sta spostando dal Wi-Fi verso un piano cellulare.” Con l’aggiornamento a Gboard, il problema non c’è più”.
Questo potrebbe sembrare un caso d’uso banale, ma Beaufays sostiene che i miglioramenti del riconoscimento vocale rivoluzioneranno lentamente il modo in cui interagiamo con i nostri dispositivi mobili. Nota che sebbene il riconoscimento vocale sia migliorato negli ultimi anni, è ancora una tecnologia immatura. È intensivo dal punto di vista computazionale, il che significa che la maggior parte dei sistemi di riconoscimento vocale devono inviare dati su Internet.
“Immagina se avessi una tastiera in cui non potresti fare clic sui tasti ogni volta che la connettività è pessima”, afferma Beaufays. “Semplicemente non useresti quella tastiera.” Ma prendendo il sistema offline, dice, la dettatura diventerà una scelta più naturale.
Per raggiungere questa transizione, il team di Google ha trascorso cinque anni a studiare il problema e a semplificare i sistemi di intelligenza artificiale utilizzati dall’app per il riconoscimento vocale. Ad esempio, mentre le vecchie versioni del software di dettatura di Gboard utilizzano tre componenti separati le forme d’onda audio, la versione aggiornata integra tutto il lavoro in un unico passaggio.
Il nuovo modello riduce anche una parte del sistema noto come “grafico del decodificatore”, un componente che funziona come un indice in un libro. Combina le forme d’onda audio con le parole scritte. Nella vecchia versione del modello di dettatura di Gboard, questo grafico del decoder aveva una dimensione di 2 GB, troppo grande per l’elaborazione su dispositivo. La nuova versione, al confronto, è solo 80 megabyte, 25 volte più piccola.