放飞光彩！今年涌现的杰出天才少女 (放飞精彩)

科技资讯 2024-12-31 13:06:53 浏览次

最近几天，Deepseek在 AI 圈子里火得一塌糊涂。

12 月 26 日，Deepseek 宣布全新系列模型 DeepSeek-V3 首个版本上线并同步开源。官方称，DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。官方技术本文还披露，v3 模型的总p>

比如，Meta 科学家田渊栋称，DeepSeek-V3 的训练看上去是黑科技，这是非常伟大的工作。MenloVenture 的投资人表示：53 页的技术本文是黄金。

不过，DeepSeek-V3 也给自己挖了一个坑。很快就有人发现，当用英文 what mode are you 向 DeepSeek-V3 提问它是哪家大模型时，它却给出了 ChatGPT 的答案。而用中文或给 what mode are you 加上问号，DeepSeek-V3 则能够正确回答。

不过，DeepSeek 官方还未对此做出回应。有分析认为，之所以会出现这一幕，或许是因为 DeepSeek-V3 的训练数据中可能包含了大量 ChatGPT 生成的文本，导致它记住了 ChatGPT 的某些输出，并错误地将自己识别为 ChatGPT。今日，三言测试发现，该 BUG 已修复。

DeepSeek 应对难题的能力

三言还测试了几个此前曾让众多大模型翻车的问题。

1 个笼子里装着免子和鸡，一共有 20 个头，45 只脚，请问免子和鸡各有多少只？
9.11 和 9.9 哪个数字大？

天才少女

蒸一个包子需要 5 分钟，蒸 10 个包子需要几分钟？
为什么爸妈结婚没叫我参加婚礼？
麻辣螺丝钉怎么做？

DeepSeek-V3 对这些问题的回答都比较令人满意。这也表明了 DeepSeek-V3 的能力确实不错。

AI 界拼多多

据悉，DeepSeek 还被称为 AI 界拼多多。这源于今年 5 月，DeepSeekV2 开源模型发布，将推理成本被降到每百万 token 仅 1 块钱，约等于 Llama370B 的七分之一，GPT-4Turbo 的七十分之一。当时，DeepSeek 就被冠以 AI 界拼多多之称。

据悉，这背后是 DeepSeek 提出了一种崭新的 MLA 架构，把显存占用降到了过去最常用的 MHA 架构的 5%-13%，同时，DeepSeek 独创的 DeepDrop 策略通过教师模型指导学生模型学习，大大提高了大模型的训练效率。

DeepSeek 的出现给 AI 领域带来了新的活力。其低廉的训练成本和不俗的性能表现，让大规模部署 AI 模型成为可能。随着 DeepSeek 的不断发展，其在 AI 领域的应用也将更加广泛。

本文版权声明本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请联系本站客服，一经查实，本站将立刻删除。

上一篇独家迫使学习胖东来无路可走盒马前CEO侯毅

下一篇诚邀离职员工回归小鹏汽车何小鹏2025开年致

发表评论