La società cinese DeepSeek ha presentato il suo ultimo modello linguistico di grandi dimensioni, DeepSeek V3-0324. Con una dimensione ridotta, l'IA aggiornata è stata resa disponibile sulla piattaforma Hugging Face. Grazie alla licenza Mit, DeepSeek ne permette un utilizzo commerciale gratuito. Le analisi interne indicano che DeepSeek-V3-0324 può girare su computer commerciali, come il Mac Studio di Apple equipaggiato con il chip M3 Ultra.
L'azienda ha riportato velocità di elaborazione oltre i 20 token al secondo, superando le capacità di esecuzione di alcuni modelli concorrenti, tra cui Claude Sonnet 3.5 di Anthropic. Il dato principale è che, per l'addestramento, sono serviti poco più di 5 milioni di dollari, una frazione rispetto alle stime dei colossi dell'IA, con costi fino a 100 milioni di dollari. Nei test, DeepSeek V3 è risultato tre volte più veloce della versione precedente, posizionandosi tra i migliori dieci modelli nella piattaforma di analisi Chatbot Arena, gestita dall'Università della California. Stando a DeepSeek, l'IA è stata sottoposta a rigorosi test da parte di esperti, anche in ambito di sicurezza, un elemento che ha sollevato vari dubbi in passato, con la paura che i dati prodotti dal chatbot potessero essere usati dal governo cinese. Dal punto di vista tecnico, il modello si basa su un'architettura Mixture of Experts (MoE), che consente l'utilizzo selettivo di circa 37 miliardi dei 685 miliardi di parametri per ciascuna attività, promuovendo l'efficienza attraverso la riduzione dei requisiti computazionali, pur mantenendo prestazioni elevate. Un mese fa, l'app di DeepSeek è sparita dagli store italiani di Apple e Google, mentre è ancora accessibile via web nel nostro Paese.
Riproduzione riservata © Copyright ANSA