DeepSeek AI開發的費用為16億美元,揭穿了負擔能力神話
DeepSeek的新聊天機器人對AI市場產生了重大影響,由於其競爭優勢,NVIDIA最大的股價下跌之一。 DeepSeek在以令人驚訝的方式回答問題的希望中引入了迅速將自己定位為行業中強大的參與者。
圖片:ensigame.com
DeepSeek模型的區別是其創新的建築和培訓方法。該公司採用多種高級技術,包括:
多語預測(MTP) :此方法允許模型通過分析句子的不同部分一次預測多個單詞,從而顯著提高了準確性和效率。
專家(MOE)的混合物:利用256個神經網絡,每個令牌處理任務都激活了8個,該體系結構加快了AI訓練並增強了性能。
多頭潛在註意力(MLA) :該機制著重於句子的最重要部分,多次提取關鍵細節以減少缺少重要信息的機會,從而捕獲輸入數據中的重要細微差別。
圖片:ensigame.com
DeepSeek是一家著名的中國初創公司,聲稱已經開發了一種競爭性的AI模型DeepSeek V3,僅使用2048個圖形處理器,培訓的成本最低為600萬美元。但是,半分析的分析師發現該公司實際上經營著龐大的計算基礎設施,其中包括約50,000個NVIDIA HOPPER GPU,其中包括10,000 H800單位,10,000 h100s和其他H20 GPU,以及額外的H20 GPU,分佈在多個數據中心。這些資源不僅用於AI培訓,還用於研究和財務建模。
DeepSeek對服務器的總投資估計為16億美元,運營費用達到9.44億美元。作為中國對沖基金高潮的子公司,DeepSeek在2023年被旋轉,專注於AI技術。與許多依賴雲服務的初創公司不同,DeepSeek擁有其數據中心,這可以更好地控制AI模型優化和更快的創新實現。該公司保持自籌資金,提高其靈活性和決策速度。
圖片:ensigame.com
DeepSeek還吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國領先的大學。該公司對只有600萬美元培訓DeepSeek V3的主張被認為是不現實的,因為它僅在預培訓期間佔用GPU使用,並排除了其他重大成本,例如研究,改進,數據處理和整體基礎架構。
自開始以來,DeepSeek已在AI開發方面投資了超過5億美元。它的精益結構可以快速有效地實施AI創新,使其與更大,更官僚的公司區分開來。
圖片:ensigame.com
DeepSeek的成功展示了一家資金充足的獨立AI公司如何挑戰行業領導者。儘管公司的成就令人印象深刻,但專家們建議,對AI模型開發的“革命預算”的主張被誇大了。 DeepSeek的成本雖然很大,但仍低於其競爭對手的成本;例如,DeepSeek的R1車型的培訓成本為500萬美元,而Chatgpt4o的培訓成本為1億美元。