Kineski DeepSeek nedavno je unio kaos u AI industriju vrijednu više milijardi dolara objavom svog modela R1, za koji se tvrdi da konkurira OpenAI-jevom O1, unatoč tome što je treniran na 2.048 Nvidia H800 grafičkih kartica uz trošak od 5,576 milijuna dolara. Međutim, novo izvješće tvrdi da su stvarni troškovi tvrtke iznosili 1,6 milijardi dolara te da DeepSeek ima pristup oko 50.000 Hopper GPU-ova.
Tvrdnja da je DeepSeek uspio istrenirati R1 koristeći samo djelić resursa koje velike tehnološke tvrtke ulažu u AI izazvala je rekordan pad Nvidia dionica – čak 600 milijardi dolara u jednom danu. Ako je kineski startup mogao stvoriti ovako moćan model bez trošenja milijardi na najjače AI GPU-ove iz Nvidije, što bi spriječilo ostale da učine isto?
No, je li DeepSeek zaista razvio svoj Mixture-of-Experts model, koji je i dalje među najpopularnijima na Apple App Storeu, uz tako niske troškove? Tvrtka SemiAnalysis tvrdi da nije.

Prema ovom izvješću, DeepSeek ima pristup oko 50.000 Hopper GPU-ova, uključujući 10.000 H800 i 10.000 H100 modela, uz dodatne narudžbe za brojne kineske H20 kartice. Ove grafičke kartice dijele se između DeepSeeka i kvantitativnog hedge fonda High-Flyer, koji stoji iza startupa. One su raspoređene na više lokacija i koriste se za trgovanje, inferenciju, treniranje i istraživanje.
DeepSeek je uložio znatno više od prijavljenih 5,5 milijuna dolara koji su uzdrmali burzu – SemiAnalysis izvještava da je taj iznos samo manji dio ukupnih troškova pretreniranja. Tvrtka je ukupno uložila oko 1,6 milijardi dolara u servere, od čega je 944 milijuna dolara potrošeno na operativne troškove, dok su GPU investicije premašile 500 milijuna dolara.
Za usporedbu, treniranje Anthropicovog Claude 3.5 Sonnet modela koštalo je desetke milijuna dolara, a tvrtka je ipak morala prikupiti milijarde dolara investicija od Googlea i Amazona.
Zanimljivo je da je DeepSeek sve svoje talente regrutirao isključivo iz Kine, za razliku od drugih kineskih tehnoloških tvrtki poput Huaweija, koji aktivno pokušava zapošljavati stručnjake iz inozemstva, posebno iz tajvanskog TSMC-a. Navodno DeepSeek nudi plaće veće od 1,3 milijuna dolara za vrhunske talente, što je znatno više od konkurentskih kineskih AI tvrtki.
Još jedna prednost DeepSeeka je što većinu svojih operacija obavlja unutar vlastitih podatkovnih centara, umjesto da se oslanja na vanjske cloud pružatelje. To omogućava veću fleksibilnost u eksperimentiranju i inovacijama unutar AI proizvoda. Prema SemiAnalysisu, DeepSeek je trenutno najbolji laboratorij, nadmašujući Meta-in Llama projekt, Mistral i druge konkurente.