Deepseek AI -ontwikkeling kost $ 1,6 miljard, debunking betaalbaarheid mythe
De nieuwe chatbot van Deepseek heeft een aanzienlijke impact gehad op de AI -markt, waardoor een van de grootste aandelenkoers van Nvidia wordt veroorzaakt vanwege het concurrentievoordeel. Geïntroduceerd met de belofte om op verrassende manieren vragen te beantwoorden, heeft Deepseek zich snel gepositioneerd als een formidabele speler in de industrie.
Afbeelding: ensigame.com
Wat het model van DeepSeek onderscheidt, zijn de innovatieve architectuur- en trainingsmethoden. Het bedrijf heeft verschillende geavanceerde technologieën in dienst, waaronder:
Multi-token voorspelling (MTP) : deze methode stelt het model in staat om meerdere woorden tegelijk te voorspellen door verschillende delen van een zin te analyseren, waardoor zowel nauwkeurigheid als efficiëntie aanzienlijk wordt verbeterd.
Mix van experts (MOE) : gebruik van 256 neurale netwerken, met acht geactiveerd voor elke tokenverwerkingstaak, deze architectuur versnelt AI -training en verbetert de prestaties.
Multi-head latente aandacht (MLA) : dit mechanisme richt zich op de belangrijkste delen van een zin, waardoor belangrijke details meerdere keren worden geëxtraheerd om de kans op het missen van belangrijke informatie te verminderen, waardoor cruciale nuances in de invoergegevens worden vastgelegd.
Afbeelding: ensigame.com
Deepseek, een prominente Chinese startup, beweert een competitief AI -model, Deepseek V3, te hebben ontwikkeld tegen een minimale kostprijs van $ 6 miljoen voor training, met behulp van slechts 2048 grafische processors. Analisten bij semianyse hebben echter ontdekt dat het bedrijf daadwerkelijk een enorme computationele infrastructuur heeft, bestaande uit ongeveer 50.000 NVIDIA -hopper GPU's, waaronder 10.000 H800 -eenheden, 10.000 H100s en extra H20 GPU's, verspreid over meerdere datacacten. Deze middelen worden niet alleen gebruikt voor AI -training, maar ook voor onderzoek en financiële modellering.
De totale investering in servers door Deepseek wordt geschat op $ 1,6 miljard, met operationele kosten van $ 944 miljoen. Als dochteronderneming van het Chinese hedgefonds high-flyer werd Deepseek in 2023 afgesplitst om zich te concentreren op AI-technologieën. In tegenstelling tot veel startups die afhankelijk zijn van cloudservices, bezit Deepseek zijn datacenters, wat meer controle mogelijk maakt over AI -modeloptimalisatie en snellere innovatie -implementatie. Het bedrijf blijft zelf gefinancierd en verbetert zijn flexibiliteit en besluitvormingssnelheid.
Afbeelding: ensigame.com
Deepseek trekt ook toptalent aan, waarbij sommige onderzoekers per jaar meer dan $ 1,3 miljoen verdienen, voornamelijk van toonaangevende Chinese universiteiten. De claim van het bedrijf over het trainen van Deepseek V3 voor slechts $ 6 miljoen wordt als onrealistisch beschouwd, omdat het alleen GPU-gebruik tijdens pre-training verklaart en andere belangrijke kosten uitsluit, zoals onderzoek, modelverfijning, gegevensverwerking en algemene infrastructuur.
Sinds de start heeft Deepseek meer dan $ 500 miljoen geïnvesteerd in AI -ontwikkeling. De magere structuur maakt een snelle en effectieve implementatie van AI -innovaties mogelijk, waardoor het zich onderscheidt van grotere, meer bureaucratische bedrijven.
Afbeelding: ensigame.com
Het succes van Deepseek laat zien hoe een goed gefinancierd, onafhankelijk AI-bedrijf marktleiders kan uitdagen. Hoewel de prestaties van het bedrijf indrukwekkend zijn, suggereren experts dat de claim van een "revolutionair budget" voor AI -modelontwikkeling te veel is aangegeven. De kosten van Deepseek, hoewel aanzienlijk, zijn nog steeds lager dan die van zijn concurrenten; De trainingskosten van het R1 -model van Deepseek waren bijvoorbeeld $ 5 miljoen, vergeleken met $ 100 miljoen voor chatgpt4o.