Kineska AI kompanija DeepSeek nedavno je bez velike pompe predstavila svoj novi veliki jezični model DeepSeek-V3-0324. Ovaj model od 641 GB pojavio se na platformi Hugging Face, a odlikuje ga nešto što ga izdvaja od konkurencije – MIT licenca, koja omogućava besplatnu komercijalnu upotrebu.
Jedna od najzanimljivijih karakteristika ovog modela je mogućnost izvođenja na potrošačkom hardveru. Dok većina naprednih AI modela zahtijeva ogromne podatkovne centre s tisućama GPU-ova, DeepSeek-V3-0324 može raditi na Appleovom Mac Studio računalu s M3 Ultra čipom. Prema riječima AI znanstvenika Awnija Hannuna, model može generirati više od 20 tokena u sekundi na ovakvom hardveru, što je impresivan rezultat za ovako velik model.
DeepSeek tvrdi da je novi model značajno poboljšan u odnosu na prethodne verzije. U internim testovima pokazao se boljim od većine konkurentskih modela i čak nadmašio Claude Sonnet 3.5 u zadacima koji ne uključuju kompleksno rezoniranje.
🚀 DeepSeek-V3-0324 is out now!
— DeepSeek (@deepseek_ai) March 25, 2025
🔹 Major boost in reasoning performance
🔹 Stronger front-end development skills
🔹 Smarter tool-use capabilities
✅ For non-complex reasoning tasks, we recommend using V3 — just turn off “DeepThink”
🔌 API usage remains unchanged
📜 Models are… pic.twitter.com/QVuPwCODne
DeepSeek-V3-0324 koristi Mixture-of-Experts (MoE) arhitekturu, što znači da u svakom trenutku aktivira samo 37 milijardi od ukupno 685 milijardi parametara, čime se postiže učinkovitost i niža računalna potrošnja bez značajnog gubitka performansi. Osim toga, model koristi Multi-Head Latent Attention (MLA) i Multi-Token Prediction (MTP) tehnologije, koje omogućuju bolju obradu konteksta i bržu generaciju teksta.
DeepSeek-V3-0324 dostupan je putem nekoliko platformi:
- Hugging Face (za lokalno izvođenje)
- OpenRouter API i chat sučelje
- DeepSeek chat platforma
- Hyperbolic Labs, koji nudi uslugu izvođenja modela
Za razliku od konkurentskih modela koji se nude putem pretplata, DeepSeek-V3-0324 je potpuno besplatan za preuzimanje i upotrebu, što ga čini atraktivnim rješenjem za istraživače, programere i kompanije koje žele moćan AI model bez dodatnih troškova.
DeepSeek-V3-0324 donosi novi smjer u AI industriji – umjesto oslanjanja na skupe podatkovne centre, omogućuje pokretanje naprednog modela na pristupačnom hardveru. Njegova otvorena licenca, optimizirana arhitektura i impresivne performanse čine ga ozbiljnom alternativom vodećim komercijalnim rješenjima. Ako se ovaj trend nastavi, mogli bismo uskoro vidjeti velike promjene u načinu na koji koristimo umjetnu inteligenciju.