简介
DeepSeek 是一个最近在 AI 领域引起广泛关注的大
语言模型。它由 DeepInfer 开发,于 2022 年 12 月 26 日发布。作为一款开源模型,DeepSeek 在多个评测
中超越了其他开源模型,其性能甚至与
世界顶尖的闭源模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。
技术优势
DeepSeek 的技术优势体现在以下几个方面:
低
训练成本:DeepSeek 的总训练成本为 557.6 万美元,远低于 GPT-4o 等闭源模型的约 1 亿美元。
MLA
架构:DeepSeek 使用了一种名为 MLA(Masked Language Acceleration)的创新架构,
蒸一个包子需要 5 分钟,蒸 10 个包子需要几分钟?
为什么爸妈结婚没叫我参加婚礼?
麻辣螺丝钉怎么做?
DeepSeek 在这些问题上表现出了较好的应答能力,能够提供准确的答案或提出合理的
分析。
AI 界拼多多
DeepSeek 也被称为 "AI 界拼多多"。这源于其在推理成本上的优势。DeepSeekV2 开源模型发布后,将推理成本降到了每百万个 token 仅 1 元钱,约等于 Llama370B 的七
分之一,GPT-4Turbo 的七十分之一。
总结
DeepSeek 是一个拥有强大技术优势的大语言模型。尽管还存在一些争议,但其低成本、高性能和良好的应答能力使其在 AI 领域具有广阔的发展前景。在未来,DeepSeek 有望继续引领 AI 技术的发展,为各行各业带来变革性的影响。
发表评论