L’ultima versione del traduttore AI di Google non si limita a tradurre le parole che escono dalla tua bocca, ma anche il tono e la cadenza della tua voce.
Il sistema si chiama Translatotron, e i ricercatori di Google sono voluti scendere più nel dettaglio su come funziona in un recente post sul blog. Non dicono che Translatotron arriverà presto sui prodotti commerciali, ma probabilmente succederà nel tempo. Come il responsabile della traduzione di Google ha spiegato a The Verge all’inizio di quest’anno, l’obiettivo dell’azienda al momento è quello di aggiungere più sfumature ai suoi strumenti di traduzione, creando un linguaggio più realistico.
La traduzione non è ancora perfetta, ma è comunque impressionante. Puoi ascoltare molti più campioni audio da Translatotron qui.
Sebbene catturare l’inflessione della voce di una persona che parla è ciò che è impressionante da sentire, l’attrazione di Translatotron per gli ingegneri della sezione intelligenza artificiale è che traduce il parlato direttamente dall’inpu senza tradurlo nel solito testo intermedio.
Meno errori e prestazioni più veloci
Questo tipo di modello di intelligenza artificiale è noto come un sistema end-to-end, perché la comunicazione è istantanea. Google afferma che rendere la traduzione end-to-end produce risultati più rapidi evitando il rischio di introdurre errori durante le varie fasi di traduzione.
Forse ancora più interessante, i dati che il modello sta elaborando non sono audio crudo. Invece, utilizza i dati dello spettrogramma o visualizzazioni dettagliate del suono. In sostanza, ciò significa che stiamo traducendo il parlato da una lingua all’altra usando le immagini, una cosa mai vista prima.
Come sempre con gli sforzi di traduzione di Google, c’è motivo di essere scettici su come possa funzionare in modo ancora ottimale, considerando che stiamo ancora alla fase di sperimentazione.