Deepseek AI Development cuesta $ 1.6 mil millones, desacreditando el mito de la asequibilidad
El nuevo chatbot de Deepseek ha tenido un impacto significativo en el mercado de IA, causando una de las mayores caídas de precios de las acciones de Nvidia debido a su ventaja competitiva. Introducido con la promesa de responder preguntas de manera sorprendente, Deepseek se ha posicionado rápidamente como un jugador formidable en la industria.
Imagen: ensigame.com
Lo que distingue el modelo de Deepseek es su innovadora arquitectura y métodos de capacitación. La compañía emplea varias tecnologías avanzadas, incluidas:
Predicción múltiple (MTP) : este método permite que el modelo predice múltiples palabras a la vez analizando diferentes partes de una oración, mejorando significativamente tanto la precisión como la eficiencia.
Mezcla de expertos (MOE) : utilizando 256 redes neuronales, con ocho activadas para cada tarea de procesamiento de tokens, esta arquitectura acelera la capacitación de IA y mejora el rendimiento.
Atención latente múltiple (MLA) : este mecanismo se centra en las partes más significativas de una oración, extrayendo detalles clave varias veces para reducir la posibilidad de faltar información importante, capturando así los matices cruciales en los datos de entrada.
Imagen: ensigame.com
Deepseek, una prominente startup china, afirma haber desarrollado un modelo de IA competitivo, Deepseek V3, a un costo mínimo de $ 6 millones para la capacitación, utilizando solo 2048 procesadores gráficos. Sin embargo, los analistas de Semianalysis han descubierto que la compañía realmente opera una vasta infraestructura computacional, que comprende alrededor de 50,000 GPU de la tolva NVIDIA, incluidas 10,000 unidades H800, 10,000 H100 y GPU H20 adicionales, distribuidas en múltiples centros de datos. Estos recursos se utilizan no solo para la capacitación de IA sino también para la investigación y el modelado financiero.
La inversión total en servidores por Deepseek se estima en $ 1.6 mil millones, con gastos operativos que alcanzan los $ 944 millones. Como subsidiaria del Fondo de cobertura chino High-Flyer, Deepseek se escindió en 2023 para centrarse en las tecnologías de IA. A diferencia de muchas nuevas empresas que dependen de los servicios en la nube, Deepseek posee sus centros de datos, lo que permite un mayor control sobre la optimización del modelo de IA y la implementación de innovación más rápida. La compañía sigue siendo autofinanciada, mejorando su flexibilidad y velocidad de toma de decisiones.
Imagen: ensigame.com
Deepseek también atrae al máximo talento, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de las principales universidades chinas. El reclamo de la compañía de capacitar a Deepseek V3 por solo $ 6 millones se considera poco realista, ya que solo representa el uso de GPU durante la capacitación previa y excluye otros costos significativos como investigación, refinamiento modelo, procesamiento de datos e infraestructura general.
Desde su inicio, Deepseek ha invertido más de $ 500 millones en desarrollo de IA. Su estructura magra permite la implementación rápida y efectiva de innovaciones de IA, que lo distingue de empresas más grandes y burocráticas.
Imagen: ensigame.com
El éxito de Deepseek muestra cómo una compañía de IA independiente y bien financiada puede desafiar a los líderes de la industria. Si bien los logros de la compañía son impresionantes, los expertos sugieren que se exagera el reclamo de un "presupuesto revolucionario" para el desarrollo del modelo de IA. Los costos de Deepseek, aunque significativos, siguen siendo más bajos que los de sus competidores; Por ejemplo, el costo de capacitación del modelo R1 de Deepseek fue de $ 5 millones, en comparación con $ 100 millones para CHATGPT4O.