L’ultima versione di Google Traduttore ha esteso il suo supporto a ben 110 nuove lingue. Tra quest’ultime figurano anche cinque dialetti e lingue minoritarie italiane. Al momento, i risultati dei primi test effettuati dai ricercatori del progetto AlpiLinK su veneto, friulano e lombardo non sono ancora soddisfacenti. Anche se Google utilizza l’intelligenza artificiale e il modello linguistico avanzato PaLM2 per le traduzioni, le performance relative ai dialetti italiani risultano inferiori.
Ad esempio, per Google Traduttore, le parole dialettali veronesi “putela” e “buteleta“, che significano “ragazza“, vengono erroneamente tradotte come “avvolgere” e “burro“. Va leggermente meglio con il termine veneziano “fiola“, tradotto correttamente come “figlia“, ma senza includere l’accezione di “ragazza”. Inoltre, la parola “ragazza” viene tradotta in veneto come “tosa“, un termine prevalentemente padovano. Mentre altre varianti come “mula” nel bellunese vengono tradotte erroneamente come “viola“.
Risultano non sufficienti i primi test sui dialetti per Google Traduttore
Le difficoltà non si limitano alle singole parole, ma emergono anche nelle frasi. Ad esempio, la frase “tu dormi più di lui” viene tradotta in veneto come “ti te dormi più de lu“. Quest’ultima rispecchia il parlato di alcune aree del Veneziano e del Padovano. Mentre, in lombardo, la traduzione diventa “tu durmi püsee de lü“, non corretta poiché la forma verbale “durmi” non esiste nella maggior parte dei dialetti lombardi. Qui la seconda persona singolare finisce in -t, come in “dormet“.
Stefan Rabanus, docente di linguistica tedesca all’Università di Verona e coordinatore scientifico di AlpiLinK, ha spiegato che l’inclusione di alcuni dialetti italiani in Google Translate è una buona notizia in quanto riconosce il valore dei dialetti e delle lingue minoritarie. Allo stesso tempo, presenta molti limiti. A differenza delle lingue nazionali, i termini come “veneto”, “lombardo” o “friulano” non rappresentano una lingua unitaria ma una moltitudine di dialetti. Ciò rende il traduttore vulnerabile, poiché necessita di un corpus molto più ampio e diversificato, e della possibilità di specificare il tipo di “veneto”, “lombardo” o “friulano” per evitare errori.
Un ulteriore limite è rappresentato dalla mancanza di riconoscimento vocale per i dialetti, presente invece per l’italiano. AlpiLinK, al contrario, si basa sulla raccolta di file audio e invita tutti a contribuire alla ricerca attraverso il loro sito web, compilando un audio-sondaggio. Fino ad oggi, AlpiLinK ha raccolto oltre 225 mila file audio grazie ai contributi ricevuti. Ciò ha permesso di creare un database open utile per l’analisi dell’accuratezza di Google Traduttore e che, in futuro, potrebbe aiutare a migliorare i modelli di intelligenza artificiale, superando gli attuali limiti.