Il modello DCLM-Baseline-7B si presenta in due versioni principali: una “standard“, con 7 miliardi di parametri, e una “mini“, con 1,4 miliardi di parametri. Apple sostiene che la versione più grande del modello ha superato nei primi benchmark il Mistral-7B, sviluppato in Francia, e sta raggiungendo performance comparabili ad altri modelli di riferimento nel settore, come Llama 3 di Meta e Gemma di Google.
Tale risultato è frutto del lavoro di un team di ricercatori altamente qualificati, composto non solo da membri di Apple, ma anche da esperti delle Università di Washington e Tel Aviv, nonché del Toyota Institute of Research. Si tratta quindi di un ampio sforzo collaborativo volto alla creazione di set di dati di alta qualità necessari per un addestramento “multimodale” avanzato.
Una delle principali novità introdotte con questo progetto è il concetto di utilizzare un framework standardizzato, caratterizzato da architetture di modelli fisse, abbinato a codice di addestramento personalizzato. Tale approccio consente una flessibilità dinamica
che permette l’uso della stessa base architetturale per scopi diversi, inclusi usi aziendali e applicazioni verticali.In termini di performance, il modello DCLM-Baseline-7B ha ottenuto punteggi notevoli nei benchmark di settore. Nei test MMLU, che valutano la comprensione linguistica multitasking, il modello di Apple ha raggiunto un punteggio del 63,7%. Tale risultato è vicino alle prestazioni di Mistral-7B-v0.3 (62,7%), Llama3 8B (66,2%), Gemma di Google (64,3%) e Phi-3 di Microsoft (69,9%).
Anche la versione “mini” del modello, con 1,4 miliardi di parametri e addestrata con il Toyota Research Institute su un vasto set di 2,6 trilioni di token, ha mostrato risultati significativi nei test MMLU, ottenendo un punteggio del 39,97%. Per confronto, modelli come Qwen-1.5B e Phi-1.5B hanno ottenuto punteggi rispettivamente del 37,87% e del 35,90%.
Per quanto riguarda la disponibilità, il modello più grande è rilasciato sotto la Sample Code License di Apple, mentre la versione più piccola è distribuita con licenza Apache 2.0, che ne consente l’uso commerciale, la distribuzione e la modifica. Come spiegato dai ricercatori coinvolti nello sviluppo, inclusi i membri come Vaishaal Shankar, il lavoro sul progetto è in continua evoluzione e mira a migliorare ulteriormente nel tempo.