Trang chủ Tin tức DeepSeek AI Develop

DeepSeek AI Develop

Tác giả : Simon Cập nhật : May 01,2025

Chatbot mới của Deepseek đã tạo ra một tác động đáng kể trong thị trường AI, gây ra một trong những khoản giảm giá cổ phiếu lớn nhất của Nvidia do lợi thế cạnh tranh của nó. Được giới thiệu với lời hứa trả lời các câu hỏi theo những cách đáng ngạc nhiên, Deepseek đã nhanh chóng định vị mình là một người chơi đáng gờm trong ngành.

DeepSeek Test Hình ảnh: Ensigame.com

Điều phân biệt mô hình của Deepseek là các phương pháp đào tạo và kiến ​​trúc sáng tạo của nó. Công ty sử dụng một số công nghệ tiên tiến, bao gồm:

Dự đoán đa điểm (MTP) : Phương pháp này cho phép mô hình dự đoán nhiều từ cùng một lúc bằng cách phân tích các phần khác nhau của câu, cải thiện đáng kể cả độ chính xác và hiệu quả.

Hỗn hợp các chuyên gia (MOE) : Sử dụng 256 mạng thần kinh, với tám mạng được kích hoạt cho mỗi nhiệm vụ xử lý mã thông báo, kiến ​​trúc này tăng tốc độ đào tạo AI và tăng cường hiệu suất.

Sự chú ý tiềm ẩn đa đầu (MLA) : Cơ chế này tập trung vào các phần quan trọng nhất của câu, trích xuất các chi tiết chính nhiều lần để giảm khả năng bỏ lỡ thông tin quan trọng, do đó nắm bắt các sắc thái quan trọng trong dữ liệu đầu vào.

Deepseek v3 Hình ảnh: Ensigame.com

Deepseek, một công ty khởi nghiệp nổi tiếng của Trung Quốc, tuyên bố đã phát triển một mô hình AI cạnh tranh, Deepseek V3, với chi phí tối thiểu là 6 triệu đô la cho đào tạo, chỉ sử dụng 2048 bộ xử lý đồ họa. Tuy nhiên, các nhà phân tích tại Semianalysis đã phát hiện ra rằng công ty thực sự vận hành một cơ sở hạ tầng tính toán rộng lớn, bao gồm khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 đơn vị H800, 10.000 H100 và GPU H20 bổ sung, lan rộng trên nhiều trung tâm dữ liệu. Những tài nguyên này được sử dụng không chỉ để đào tạo AI mà còn cho nghiên cứu và mô hình hóa tài chính.

Tổng số tiền đầu tư vào các máy chủ của DeepSeek ước tính khoảng 1,6 tỷ đô la, với chi phí hoạt động đạt 944 triệu đô la. Là một công ty con của Quỹ phòng hộ Trung Quốc, Deepseek đã quay đi năm 2023 để tập trung vào các công nghệ AI. Không giống như nhiều công ty khởi nghiệp dựa vào các dịch vụ đám mây, DeepSeek sở hữu các trung tâm dữ liệu của mình, cho phép kiểm soát tốt hơn tối ưu hóa mô hình AI và triển khai đổi mới nhanh hơn. Công ty vẫn tự tài trợ, tăng cường tính linh hoạt và tốc độ ra quyết định.

Deepseek Hình ảnh: Ensigame.com

Deepseek cũng thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học hàng đầu Trung Quốc. Yêu cầu đào tạo Deepseek V3 của công ty chỉ với 6 triệu đô la được coi là không thực tế, vì nó chỉ chiếm mức sử dụng GPU trong quá trình đào tạo trước và loại trừ các chi phí quan trọng khác như nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu và cơ sở hạ tầng tổng thể.

Kể từ khi bắt đầu, Deepseek đã đầu tư hơn 500 triệu đô la vào sự phát triển của AI. Cấu trúc nạc của nó cho phép thực hiện nhanh chóng và hiệu quả các đổi mới AI, tạo nên sự khác biệt với các công ty lớn hơn, quan liêu hơn.

Deepseek Hình ảnh: Ensigame.com

Thành công của Deepseek cho thấy cách một công ty AI độc lập, được tài trợ tốt có thể thách thức các nhà lãnh đạo trong ngành. Trong khi thành tích của công ty là ấn tượng, các chuyên gia cho rằng yêu cầu "ngân sách cách mạng" đối với sự phát triển mô hình AI bị cường điệu hóa. Chi phí của Deepseek, trong khi đáng kể, vẫn thấp hơn so với các đối thủ cạnh tranh; Ví dụ, chi phí đào tạo của mô hình R1 của Deepseek là 5 triệu đô la, so với 100 triệu đô la cho TATGPT4O.