
DeepSeek 和 AI 天才少女罗福莉的崛起
前沿大语言模型 DeepSeek-V3
随着
中国 AI 公司 DeepSeek 发布并开源前沿大语言模型 DeepSeek-V3,AI领域迎来了激动人心的新篇章。该模型以其卓越的性能和极高的性价比成为业界关注的焦点。
技术报告
显示,DeepSeek-V3 拥有 671B 参数量和 37B 激活参数,并使用 14.8 万亿个预
训练 token。在多项评测中,它
超越了阿里巴巴的 Qwen2.5-72B 和 Meta 的 deLlama-3.1-405B 等其他开源模型,甚至与世界顶尖闭源模型 GPT-4o 和 Claude-3.5-Sonnet 不相上下。
超低预算训练,引发广泛关注
DeepSeek-V3 的训练预算极低,引起了业界的广泛关注。相比之下,Meta 旗下顶尖开源模型 Llama-3405B 的训练时长是 3080 万 GPU 小时,成本超过 6000 万美元。而 DeepSeek-V3 仅用了不到 280 万 GPU 小时,总训练成本不到 600 万美元。
这一巨大的成本差异展示了 DeepSeek 在研究和工程方面出色
的能力,尤其是在资源有限的情况下。如果 DeepSeek-V3 的优良表现得到广泛验证,它将为研究和工程实践创造新的格局。
AI 界拼多多 DeepSeek
DeepSeek 被称为 AI 界拼多多,致力于
开发先进的大语言模型和相关技术。由量化资管巨头幻方量化于 2023 年创立,DeepSeek 已在全球 AI 界崭露头角。
早在半年前,DeepSeek 发布的 DeepSeek-V2 就因其性能
达到 GPT-4 级别,但开源、可免费商用,且 API
价格仅为 GPT-4-Turbo 的百
分之一而引发业内关注。
低成本高性能,推动大模型价格战
DeepSeek 通过创新架构,例如注意力机制方面的 MLA(多头潜在注意力)和前馈网络方面的 DeepSeekMoE 架构,实现了具有更高经济性的训练效果和更高效
发表评论