DeepSeek AI Development стоит 1,6 млрд. Долл.
Новый чат -бот DeepSeek оказал значительное влияние на рынок искусственного интеллекта, что привело к тому, что один из крупнейших падений цен на акции Nvidia из -за его конкурентного преимущества. Представленная с обещанием ответить на вопросы неожиданно, DeepSeek быстро позиционировал себя как грозный игрок в отрасли.
Изображение: Ensigame.com
Что отличает модель Deepseek, так это ее инновационная архитектура и методы обучения. Компания использует несколько передовых технологий, в том числе:
Multi-Token Production (MTP) : этот метод позволяет модели прогнозировать несколько слов одновременно, анализируя различные части предложения, значительно повышая как точность, так и эффективность.
Смесь экспертов (MOE) : используя 256 нейронных сетей, с восемью активированными для каждой задачи обработки токенов, эта архитектура ускоряет обучение ИИ и повышает производительность.
Многоугольное скрытое внимание (MLA) : этот механизм фокусируется на наиболее значимых частях предложения, извлекая ключевые детали несколько раз, чтобы уменьшить вероятность отсутствия важной информации, тем самым захватывая важные нюансы во входных данных.
Изображение: Ensigame.com
DeepSeek, известный китайский стартап, утверждает, что разработала конкурентоспособную модель искусственного интеллекта DeepSeek V3 с минимальной стоимостью 6 миллионов долларов для обучения, используя всего 2048 графических процессоров. Тем не менее, аналитики в полуализации обнаружили, что компания фактически управляет обширной вычислительной инфраструктурой, включающей около 50 000 графических процессоров Nvidia Hopper, включая 10 000 единиц H800, 10 000 H100 и дополнительные графические процессоры H20, распространяющиеся по нескольким центрам обработки данных. Эти ресурсы используются не только для обучения ИИ, но и для исследования и финансового моделирования.
Общая инвестиция в серверы с помощью DeepSeek оценивается в 1,6 миллиарда долларов, а эксплуатационные расходы достигают 944 миллионов долларов. Как дочерняя компания китайского хедж-фонда, DeepSeek был отказан в 2023 году, чтобы сосредоточиться на технологиях искусственного интеллекта. В отличие от многих стартапов, которые полагаются на облачные сервисы, DeepSeek владеет своими центрами обработки данных, что позволяет обеспечить больший контроль над оптимизацией модели искусственного интеллекта и более быстрой реализации инноваций. Компания остается самофинансированной, повышая свою гибкость и скорость принятия решений.
Изображение: Ensigame.com
DeepSeek также привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из ведущих китайских университетов. Претензия компании на обучение DeepSeek V3 всего за 6 миллионов долларов считается нереальной, поскольку она учитывает только использование графических процессоров во время предварительного обучения и исключает другие значительные затраты, такие как исследования, уточнение модели, обработка данных и общая инфраструктура.
С момента своего начала DeepSeek инвестировал более 500 миллионов долларов в разработку ИИ. Его бережливая структура позволяет быстро и эффективно внедрить инновации искусственного интеллекта, выделяя их от более крупных, более бюрократических компаний.
Изображение: Ensigame.com
Успех DeepSeek демонстрирует, как хорошо финансируемая независимая компания по искусству может бросить вызов лидерам отрасли. Хотя достижения компании впечатляют, эксперты предполагают, что утверждение о «революционном бюджете» для разработки модели искусственного интеллекта преувеличено. Затраты DeepSeek, хотя и значительными, все еще ниже, чем у его конкурентов; Например, стоимость обучения модели Deepseek R1 составила 5 миллионов долларов, по сравнению с 100 миллионами долларов США для Chatgpt4o.
Последние статьи