Deepseek AI Development kosztuje 1,6 miliarda dolarów, obalając mit przystępności cenowej
Nowy chatbot Deepseek wywarł znaczący wpływ na rynku AI, powodując jeden z największych spadków cen akcji Nvidia ze względu na jego przewagę konkurencyjną. Wprowadzony z obietnicą odpowiadania na pytania w zaskakujący sposób, Deepseek szybko postawił się jako potężny gracz w branży.
Zdjęcie: engame.com
To, co rozróżnia model Deepseek, jest jego innowacyjna architektura i metody szkolenia. Firma zatrudnia kilka zaawansowanych technologii, w tym:
Prognozowanie wielofunkcyjne (MTP) : Ta metoda pozwala modelowi przewidzieć wiele słów jednocześnie poprzez analizę różnych części zdania, znacznie poprawiając zarówno dokładność, jak i wydajność.
Mieszanka ekspertów (MOE) : Wykorzystanie 256 sieci neuronowych, z ośmioma aktywowanymi dla każdego zadania przetwarzania tokenu, ta architektura przyspiesza szkolenie AI i zwiększa wydajność.
Wielowłótniego utajona uwaga (MLA) : Ten mechanizm koncentruje się na najważniejszych częściach zdania, wyodrębniając kluczowe szczegóły wiele razy, aby zmniejszyć szansę na brak ważnych informacji, przechwytując w ten sposób kluczowe niuanse w danych wejściowych.
Zdjęcie: engame.com
Deepseek, wybitny chiński startup, twierdzi, że opracował konkurencyjny model AI, Deepseek V3, przy minimalnym koszcie 6 milionów dolarów na szkolenie, przy użyciu zaledwie 2048 procesorów graficznych. Jednak analitycy z półprzezroczystości odkryli, że firma faktycznie prowadzi rozległą infrastrukturę obliczeniową, obejmującą około 50 000 GPU Nvidia Hopper, w tym 10 000 jednostek H800, 10 000 H100 i dodatkowe GPU H20, rozprzestrzenianie się w wielu centrach danych. Zasoby te są wykorzystywane nie tylko do szkolenia AI, ale także do badań i modelowania finansowego.
Całkowita inwestycja w serwerach przez Deepseek szacuje się na 1,6 miliarda dolarów, a wydatki operacyjne wynoszą 944 mln USD. Jako spółka zależna chińskiego funduszu hedgingowego High-Flyer, Deepseek został oderwany w 2023 r., Aby skupić się na technologiach AI. W przeciwieństwie do wielu startupów, które opierają się na usługach w chmurze, Deepseek jest właścicielem centrów danych, co pozwala na większą kontrolę nad optymalizacją modelu AI i szybszą implementację innowacji. Firma pozostaje finansowana, zwiększając swoją elastyczność i szybkość podejmowania decyzji.
Zdjęcie: engame.com
Deepseek przyciąga również najlepsze talenty, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, głównie z wiodących chińskich uniwersytetów. Roszczenie firmy o szkolenie Deepseek V3 za zaledwie 6 milionów dolarów jest uważane za nierealne, ponieważ uwzględnia tylko korzystanie z GPU podczas wstępnego treningu i wyklucza inne znaczące koszty, takie jak badania, udoskonalenie modelu, przetwarzanie danych i ogólna infrastruktura.
Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jego szczupła struktura umożliwia szybkie i skuteczne wdrożenie innowacji AI, odróżniając ją spośród większych, bardziej biurokratycznych firm.
Zdjęcie: engame.com
Sukces Deepseek pokazuje, w jaki sposób dobrze finansowana, niezależna firma AI może rzucić wyzwanie liderom branży. Podczas gdy osiągnięcia firmy są imponujące, eksperci sugerują, że roszczenie o „rewolucyjnym budżecie” dla opracowywania modelu AI jest zawyżone. Koszty Deepseek, choć znaczące, są jeszcze niższe niż koszty jego konkurentów; Na przykład koszt szkolenia modelu R1 Deepseek wyniósł 5 milionów dolarów, w porównaniu do 100 milionów dolarów dla Chatgpt4o.
Najnowsze artykuły