I modelli Gemini 1.0 sono multimodali, questo vuol dire che possono ricevere input in forma di testo, immagini, audio, video e codice di programmazione. Questa caratteristica amplia significativamente le capacità di Bard, rendendolo più abile nel comprendere e rispondere a diverse tipologie di input, anche più complessi e diversificati.
Gemini Pro fa parte del pacchetto 1.0 di LLM presentato da Google alla fine del 2023, che comprende anche Gemini Ultra, il modello più grande e potente progettato per compiti complessi, e Gemini Nano, suddiviso in Nano–1 e Nano–2, il modello più efficiente e più piccolo pensato soprattutto per dispositivi mobili e presente nel Pixel 8 Pro.
Un ulteriore aspetto del chatbot, particolarmente interessante, consiste nella capacità di Bard con Gemini Pro di creare immagini a partire dalla loro descrizione testuale. Un ulteriore passo avanti per il chatbot che diventa sempre più efficiente nel comprendere e rispondere
in modo completo e coinvolgente agli input che gli vengono posti. Attualmente, questa funzionalità è disponibile solo per la lingua inglese, grazie al modello Imagen 2.Inoltre, Bard è stato arricchito con l’aggiunta dell’icona “G“. Questa particolare icona svolge un ruolo cruciale nel processo di verifica delle risposte fornite da Bard. Trattandosi di modelli che generano risposte basate sulla relazione statistica tra le parole nei dati di addestramento, gli LLM possono occasionalmente commettere errori. L’icona “G” agisce proprio in questo campo e consente agli utenti di confrontare le risposte di Bard con i risultati di Google Search, fornendo frasi evidenziate in rosso o verde a seconda della correttezza dell’informazione fornita.
L’introduzione di Bard con Gemini Pro rappresenta un avanzamento significativo nelle capacità del chatbot di Google, consentendo una comprensione più approfondita e una risposta più sofisticata in una varietà di contesti e lingue. L’adozione di modelli multimodali e la funzionalità di generazione di immagini rappresentano passi avanti importanti nel campo dell’elaborazione del linguaggio naturale e dell’intelligenza artificiale.