DeepSeek AI Development의 비용은 16 억 달러로 경제성 신화를 폭로했습니다
DeepSeek의 새로운 챗봇은 AI 시장에 큰 영향을 미쳤으며, 경쟁 우위로 인해 Nvidia의 가장 큰 주가 중 하나를 초래했습니다. DeepSeek은 놀라운 방식으로 질문에 대답하겠다는 약속으로 소개 된 업계에서 강력한 선수로 빠르게 자리 매김했습니다.
이미지 : ensigame.com
DeepSeek의 모델을 구별하는 것은 혁신적인 아키텍처 및 교육 방법입니다. 이 회사는 다음을 포함하여 여러 고급 기술을 사용합니다.
MTP (Multi-Token Prediction) :이 방법을 사용하면 모델이 문장의 다른 부분을 분석하여 한 번에 여러 단어를 예측할 수있어 정확도와 효율성을 크게 향상시킵니다.
전문가 혼합 (MOE) : 256 개의 신경망을 활용하여 각 토큰 처리 작업마다 8 개의 활성화 된이 아키텍처는 AI 교육 속도를 높이고 성능을 향상시킵니다.
다중 헤드 잠재주의 (MLA) :이 메커니즘은 문장의 가장 중요한 부분에 중점을 두어 중요한 정보가 누락 될 가능성을 줄이기 위해 주요 세부 사항을 여러 번 추출하여 입력 데이터의 중요한 뉘앙스를 캡처합니다.
이미지 : ensigame.com
저명한 중국 스타트 업인 Deepseek은 경쟁력있는 AI 모델 인 DeepSeek V3을 2048 개의 그래픽 프로세서를 사용하여 교육을 위해 최소 6 백만 달러의 비용으로 개발했다고 주장합니다. 그러나 Semianalysis의 분석가들은이 회사가 실제로 10,000 H800 단위, 10,000 H100 및 추가 H20 GPU를 포함하여 약 50,000 NVIDIA HOPPER GPU를 포함하는 광대 한 계산 인프라를 운영하고 있다고 밝혔다. 이러한 리소스는 AI 교육뿐만 아니라 연구 및 재무 모델링에도 사용됩니다.
DeepSeek의 서버에 대한 총 투자는 16 억 달러로 추정되며 운영비는 9 억 9,400 만 달러에 이릅니다. 중국 헤지 펀드 High-Flyer의 자회사로서 Deepseek는 2023 년에 AI 기술에 중점을 두어 회전했습니다. Cloud Services에 의존하는 많은 신생 기업과 달리 DeepSeek은 데이터 센터를 소유하여 AI 모델 최적화와 더 빠른 혁신 구현을 더 잘 제어 할 수 있습니다. 회사는 자체 자금을 유지하여 유연성과 의사 결정 속도를 향상시킵니다.
이미지 : ensigame.com
Deepseek은 또한 최고의 인재를 유치하며 일부 연구자들은 주로 중국 대학에서 주로 130 만 달러 이상을 벌고 있습니다. 6 백만 달러에 대한 DeepSeek V3 교육에 대한 회사의 주장은 비현실적인 것으로 간주되며, 사전 훈련 중 GPU 사용만을 설명하고 연구, 모델 개선, 데이터 처리 및 전체 인프라와 같은 다른 중요한 비용을 제외합니다.
DeepSeek은 처음부터 AI 개발에 5 억 달러 이상을 투자했습니다. 린 구조는 AI 혁신의 빠르고 효과적인 구현을 가능하게하여 더 큰 관료적 회사와는 별도로 설정합니다.
이미지 : ensigame.com
Deepseek의 성공은 잘 자금을 지원하고 독립적 인 AI 회사가 업계 리더들에게 도전 할 수있는 방법을 보여줍니다. 회사의 성과는 인상적이지만 전문가들은 AI 모델 개발에 대한 "혁명 예산"에 대한 주장이 과장되었다고 제안합니다. DeepSeek의 비용은 여전히 경쟁 업체의 비용보다 여전히 낮습니다. 예를 들어, DeepSeek의 R1 모델의 교육 비용은 ChatGpt4o의 1 억 달러에 비해 5 백만 달러였습니다.