Pembangunan DeepSeek AI berharga $ 1.6 bilion, membatalkan mitos kemampuan
Chatbot baru Deepseek telah memberi impak yang signifikan di pasaran AI, menyebabkan salah satu penurunan harga saham terbesar Nvidia disebabkan oleh kelebihan daya saingnya. Diperkenalkan dengan janji menjawab soalan dengan cara yang mengejutkan, DeepSeek dengan cepat meletakkan dirinya sebagai pemain yang hebat dalam industri.
Imej: ensigame.com
Apa yang membezakan model DeepSeek adalah kaedah seni bina dan latihan yang inovatif. Syarikat menggunakan beberapa teknologi canggih, termasuk:
Ramalan Multi-Token (MTP) : Kaedah ini membolehkan model meramalkan beberapa perkataan sekaligus dengan menganalisis bahagian-bahagian yang berlainan dari satu kalimat, dengan ketara meningkatkan ketepatan dan kecekapan.
Campuran Pakar (MOE) : Menggunakan 256 rangkaian saraf, dengan lapan diaktifkan untuk setiap tugas pemprosesan token, seni bina ini mempercepat latihan AI dan meningkatkan prestasi.
Perhatian Laten Multi-Head (MLA) : Mekanisme ini memberi tumpuan kepada bahagian-bahagian yang paling penting dalam satu kalimat, mengekstrak butiran utama beberapa kali untuk mengurangkan peluang yang hilang maklumat penting, dengan itu menangkap nuansa penting dalam data input.
Imej: ensigame.com
DeepSeek, permulaan Cina yang terkenal, mendakwa telah membangunkan model AI yang kompetitif, DeepSeek V3, dengan kos minimum $ 6 juta untuk latihan, menggunakan hanya 2048 pemproses grafik. Walau bagaimanapun, penganalisis di semianalisis telah mendedahkan bahawa syarikat itu sebenarnya mengendalikan infrastruktur pengiraan yang luas, yang terdiri daripada sekitar 50,000 GPU NVIDIA Hopper, termasuk 10,000 H800 unit, 10,000 H100S, dan GPU tambahan H20, tersebar di pelbagai pusat data. Sumber -sumber ini digunakan bukan sahaja untuk latihan AI tetapi juga untuk penyelidikan dan pemodelan kewangan.
Jumlah pelaburan dalam pelayan oleh DeepSeek dianggarkan $ 1.6 bilion, dengan perbelanjaan operasi mencapai $ 944 juta. Sebagai anak syarikat dana lindung nilai Cina yang tinggi, DeepSeek berputar pada tahun 2023 untuk memberi tumpuan kepada teknologi AI. Tidak seperti banyak pemula yang bergantung kepada perkhidmatan awan, DeepSeek memiliki pusat datanya, yang membolehkan kawalan yang lebih besar terhadap pengoptimuman model AI dan pelaksanaan inovasi yang lebih cepat. Syarikat itu tetap dibiayai sendiri, meningkatkan kelajuan fleksibiliti dan membuat keputusan.
Imej: ensigame.com
DeepSeek juga menarik bakat teratas, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setiap tahun, terutamanya dari universiti -universiti China yang terkemuka. Tuntutan Latihan Syarikat DeepSeek V3 untuk hanya $ 6 juta dianggap tidak realistik, kerana ia hanya menyumbang penggunaan GPU semasa latihan pra-latihan dan tidak termasuk kos signifikan lain seperti penyelidikan, penghalusan model, pemprosesan data, dan infrastruktur keseluruhan.
Sejak permulaannya, DeepSeek telah melabur lebih daripada $ 500 juta dalam pembangunan AI. Struktur rampingnya membolehkan pelaksanaan inovasi AI yang pesat dan berkesan, membezakannya daripada syarikat -syarikat birokrasi yang lebih besar dan lebih besar.
Imej: ensigame.com
Kejayaan DeepSeek mempamerkan bagaimana syarikat AI yang dibiayai dengan baik dapat mencabar pemimpin industri. Walaupun pencapaian syarikat itu mengagumkan, para pakar mencadangkan bahawa tuntutan "anggaran revolusioner" untuk pembangunan model AI dilebih -lebihkan. Kos Deepseek, sementara penting, masih lebih rendah daripada pesaingnya; Sebagai contoh, kos latihan model R1 DeepSeek adalah $ 5 juta, berbanding $ 100 juta untuk ChatGPT4O.
Artikel terkini