DeepSeek 模型的演變:DeepSeek-V3 與 DeepSeek-V3-0324
DeepSeek AI 團隊持續精進其旗艦語言模型,DeepSeek-V3-0324(於 2025 年 3 月發布)相較於原始的 DeepSeek-V3(2024 年 12 月)代表了一次重大升級。這兩個模型都採用了專家混合(MoE)架構,但在性能、可及性和技術優化上有所不同。
核心架構差異
特徵 | DeepSeek-V3 | DeepSeek-V3-0324 |
---|---|---|
總參數 | 671B | 685B |
活躍參數 | 每個標記 37B | 每個標記 37B |
訓練數據 | 14.8T 標記 | 擴展的 MIT 授權語料庫 |
推理速度 | 約 20 標記/秒(在高端 GPU 上) | 優化為即時響應 |
授權 | 自訂 | MIT |
大约 2 分鐘