การพัฒนา AI Deepseek มีค่าใช้จ่าย 1.6 พันล้านเหรียญ
Chatbot ใหม่ของ Deepseek สร้างผลกระทบอย่างมีนัยสำคัญในตลาด AI ทำให้ราคาหุ้นที่ใหญ่ที่สุดของ Nvidia ลดลงเนื่องจากความได้เปรียบในการแข่งขัน ได้รับการแนะนำให้รู้จักกับคำสัญญาในการตอบคำถามด้วยวิธีที่น่าประหลาดใจ Deepseek ได้วางตำแหน่งตัวเองอย่างรวดเร็วในฐานะผู้เล่นที่น่าเกรงขามในอุตสาหกรรม
รูปภาพ: Ensigame.com
สิ่งที่แยกความแตกต่างของแบบจำลองของ Deepseek คือสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรม บริษัท ใช้เทคโนโลยีขั้นสูงหลายอย่างรวมถึง:
Multi-Token Prediction (MTP) : วิธีนี้ช่วยให้แบบจำลองสามารถทำนายคำได้หลายคำพร้อมกันโดยการวิเคราะห์ส่วนต่าง ๆ ของประโยคซึ่งเป็นการปรับปรุงความแม่นยำและประสิทธิภาพอย่างมีนัยสำคัญ
ส่วนผสมของผู้เชี่ยวชาญ (MOE) : การใช้เครือข่ายประสาท 256 แห่งโดยมีการเปิดใช้งานแปดครั้งสำหรับงานการประมวลผลโทเค็นแต่ละครั้งสถาปัตยกรรมนี้จะเพิ่มความเร็วในการฝึกอบรม AI และเพิ่มประสิทธิภาพ
ความสนใจแฝงหลายหัว (MLA) : กลไกนี้มุ่งเน้นไปที่ส่วนที่สำคัญที่สุดของประโยคการแยกรายละเอียดสำคัญหลายครั้งเพื่อลดโอกาสที่จะหายไปข้อมูลสำคัญซึ่งจะจับความแตกต่างที่สำคัญในข้อมูลอินพุต
รูปภาพ: Ensigame.com
Deepseek การเริ่มต้นของจีนที่โดดเด่นอ้างว่าได้พัฒนาโมเดล AI ที่แข่งขันได้ Deepseek V3 ด้วยค่าใช้จ่ายน้อยที่สุด 6 ล้านเหรียญสหรัฐสำหรับการฝึกอบรมโดยใช้โปรเซสเซอร์กราฟิกเพียง 2048 อย่างไรก็ตามนักวิเคราะห์ที่ Semianalysis ได้เปิดเผยว่า บริษัท ดำเนินงานโครงสร้างพื้นฐานการคำนวณจำนวนมากซึ่งประกอบด้วย GPU Nvidia Hopper ประมาณ 50,000 ตัวรวมถึง 10,000 H800 หน่วย, 10,000 H100s และ H20 GPU เพิ่มเติมกระจายไปทั่วศูนย์ข้อมูลหลายแห่ง ทรัพยากรเหล่านี้ใช้ไม่เพียง แต่สำหรับการฝึกอบรม AI แต่ยังรวมถึงการวิจัยและการสร้างแบบจำลองทางการเงิน
การลงทุนทั้งหมดในเซิร์ฟเวอร์โดย Deepseek อยู่ที่ประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานสูงถึง 944 ล้านดอลลาร์ ในฐานะที่เป็น บริษัท ย่อยของกองทุนป้องกันความเสี่ยงจีนที่มีการบินสูง Deepseek ได้หมุนตัวในปี 2566 เพื่อมุ่งเน้นไปที่เทคโนโลยี AI ซึ่งแตกต่างจาก startups จำนวนมากที่พึ่งพาบริการคลาวด์ Deepseek เป็นเจ้าของศูนย์ข้อมูลซึ่งช่วยให้สามารถควบคุมการเพิ่มประสิทธิภาพโมเดล AI ได้มากขึ้นและการใช้นวัตกรรมที่เร็วขึ้น บริษัท ยังคงได้รับเงินสนับสนุนตนเองเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ
รูปภาพ: Ensigame.com
Deepseek ยังดึงดูดความสามารถสูงสุดโดยนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปีส่วนใหญ่มาจากมหาวิทยาลัยชั้นนำของจีน การเรียกร้องของ บริษัท เกี่ยวกับการฝึกอบรม Deepseek V3 ในราคาเพียง 6 ล้านดอลลาร์ถือเป็นสิ่งที่ไม่สมจริงเนื่องจากเป็นเพียงบัญชีสำหรับการใช้งาน GPU ในระหว่างการฝึกอบรมก่อนและไม่รวมค่าใช้จ่ายที่สำคัญอื่น ๆ เช่นการวิจัยการปรับแต่งแบบจำลองการประมวลผลข้อมูลและโครงสร้างพื้นฐานโดยรวม
นับตั้งแต่เริ่มต้น Deepseek ได้ลงทุนกว่า 500 ล้านดอลลาร์ในการพัฒนา AI โครงสร้างแบบลีนช่วยให้การใช้งานนวัตกรรม AI อย่างรวดเร็วและมีประสิทธิภาพทำให้แตกต่างจาก บริษัท ที่มีขนาดใหญ่และมีระบบราชการมากขึ้น
รูปภาพ: Ensigame.com
ความสำเร็จของ Deepseek แสดงให้เห็นว่า บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีสามารถท้าทายผู้นำอุตสาหกรรมได้อย่างไร ในขณะที่ความสำเร็จของ บริษัท นั้นน่าประทับใจผู้เชี่ยวชาญแนะนำว่าการเรียกร้องของ "งบประมาณปฏิวัติ" สำหรับการพัฒนาโมเดล AI นั้นเกินจริง ค่าใช้จ่ายของ Deepseek ในขณะที่สำคัญยังคงต่ำกว่าค่าของคู่แข่ง ตัวอย่างเช่นค่าใช้จ่ายในการฝึกอบรมของรุ่น R1 ของ Deepseek อยู่ที่ 5 ล้านดอลลาร์เทียบกับ $ 100 ล้านสำหรับ ChatGPT4O
บทความล่าสุด