Un recente report solleva preoccupazioni sull’accuratezza delle risposte generate da Gemini, il chatbot AI di Google. Stando alle ultime notizie arrivate, ad influire in maniera negativa sulla qualità delle risposte sarebbero alcune modifiche effettuate rispetto alle politiche interne di valutazione. Nel preciso, pare che Google richieda a coloro che valutano le risposte di Gemini di esprimere dei giudizi anche quando l’argomento in questione non è di loro competenza.
Le nuove politiche di valutazione di Google per Gemini
Tradizionalmente, i contractor (coloro che valutano le risposte di Gemini) che lavorano con modelli di intelligenza artificiale come Gemini avevano la possibilità di saltare la valutazione di una risposta se non disponevano delle competenze necessarie per verificarne l’accuratezza. Secondo il report, questa opzione non sarebbe più disponibile. Ora, i valutatori sono obbligati a valutare le parti della risposta che comprendono, anche se l’intero argomento risulta al di fuori delle loro competenze. Devono inoltre specificare quando non hanno le conoscenze necessarie per una valutazione completa.
Esistono comunque alcune eccezioni. I contractor possono saltare una risposta solo in due casi:
- Quando il contenuto generato è incomprensibile a causa della mancanza di informazioni essenziali;
- Quando la risposta contiene contenuti potenzialmente dannosi.
L’impatto sull’accuratezza di Gemini
Dalle nuove politiche dunque nasce più di una perplessità: quanto è affidabile Gemini soprattutto quando si tratta di ambiti come la salute? Sebbene non ci siano dichiarazioni ufficiali da parte di Google, il rischio è che risposte inesatte possano essere valutate come accettabili, compromettendo la fiducia degli utenti nel sistema. Questo aspetto è particolarmente preoccupante per chi utilizza Gemini per ottenere consigli o informazioni su argomenti complessi, come la medicina.
Per formare un modello AI di rilievo è necessario un processo di valutazione basato su competenza e struttura ben precise. Non servono dunque solo dati accurati: nel momento in cui chi valuta il lavoro dell’intelligenza artificiale non è qualificato per farlo, è chiaro che aumenti il rischio di errore.