La corsa alle intelligenze artificiali è globale anche se c’è chi punta per alcuni obiettivi e chi per altri. Tra gli obiettivi di Google, tra i tanti, troviamo quello di far creare un discorso artificiale convincente. Con il nuovo sistema appena lanciato, TacoTron 2, la compagnia californiana sembrerebbe essere arrivata quasi alla meta.
La fusione di due sistemi
Google, dopo una serie di prove e tentativi ha raggiunto il successo fondendo le parti migliori dei due progetti precedenti, WaveNet e Tacotron.
Il primo riusciva a produrre un discorso che si può definire convincente, ma solamente un campione audio alla volta, cosa problematica. Anche se è efficace, WaveNet, richiede una gran quantità di metadati sul linguaggio, come pronuncia e caratteristiche linguistiche.
Tacotron, l’originale, riusciva nell’intento di sintetizzare caratteristiche di più alto livello, come intonazione e prosodia. La parte “fallimentare” era l’incapacità di produrre un vocale finale.
Il nuovo sistema usa un testo e la narrazione di quel testo per calcolare le regole linguistiche che normalmente andrebbero esplicitamente insegnate. Il testo viene poi convertito in uno “Spettrogramma a scala Mel” che permette al Tacotron di usare correttamente ritmo ed enfasi. Inoltre con l’utilizzo del sistema di WaveNet vengono generate le parole.
L’audio che viene fuori da queste operazioni risulta buono e migliore di qualsiasi altro sistema del genere. Ha dei problemi con alcune pronunce poche intuitive e forse presenta un ritmo troppo veloce, ma lo si potrebbe considerare “il carattere” dell’intelligenza.
Un altro problema è l’impossibilità di controllare il tono delle voci. Creare toni ottimisti o preoccupati è una caratteristica del linguaggio umano, fa parte del linguaggio non verbale. Solo tramite reminiscenze di WaveNet la macchina riesce a creare delle sottigliezze del genere, ma niente di complesso.
Tacotron 2 ha reso semplice l’insegnamento alle intelligenze eliminando la necessità di fornire manualmente un set di regole. È una tecnologia in continua evoluzione e tra qualche anno chissà cosa ne verrà fuori.