性价比大模型归档

DeepSeek V3：AI 性价比的新标杆，挑战 GPT-4 不再是梦

By Jeffrey 2024 年 12 月 29 日

在人工智能领域，每一次技术突破都让人兴奋不已。而这一次，中国 AI 公司 DeepSeek 带来的最新大语言模型 DeepSeek V3，不仅性能强悍，更以令人难以置信的低成本，重新定义了 AI 的性价比。今天，我们就来聊聊这个被称为“开源 AI 新标杆”的模型，看看它如何以十分之一的成本，挑战 GPT-4 这样的顶级闭源模型。

成本效率：颠覆你的想象

DeepSeek V3 的最大亮点之一，就是它那让人瞠目结舌的成本效率。这个拥有 6710 亿参数的模型，训练成本仅为 557.6 万美元，而且只用了 2048 个 H800 GPU，耗时两个月就完成了训练。相比之下，其他同类模型如 LLaMA 3 405B，动辄需要 16000 个 H100 GPU，成本差距之大，简直让人不敢相信。

Reddit 上的一位用户 u/LocalLLaMA 就感叹道：“DeepSeek V3 的训练资源仅为常规模型的八分之一到十一分之一，这完全改变了我们对 AI 训练成本的认知。”这种高效的资源利用，不仅降低了开发成本，更为整个行业树立了新的效率标准。