今年的天才少女们闪耀登场才华横溢令人惊叹 (今年的天才少年)

科技资讯 2025-01-01 14:31:59 浏览次

深度学习模型DeepSeek-V3惊艳亮相，性能超群

近日，AI领域风起云涌，Deepseek横空出世，迅速霸占头条。12月26日，Deepseek宣布全新系列模型DeepSeek-V3首个版本正式上线并开源。据官方称，DeepSeek-V3在多项评测中超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，其性能与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。

更令人瞩目的是，官方技术本文披露，v3模型的总训练DeepSeek-V3给出了高度评价。

DeepSeek-V3也给自己挖了一个坑。有人发现，当用英文whatmodelareyou向DeepSeek-V3提问它是哪家大模型时，它却给出了ChatGPT的答案。而用中文或给whatmodelareyou加上问号，DeepSeek-V3则能够正确回答。对此，DeepSeek官方尚未做出回应。

有分析认为，这一现象可能源于DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本，导致它记住了ChatGPT的某些输出，并错误地将自己识别为ChatGPT。

DeepSeek-V3能力全面，应对问题游刃有余

尽管出现了小插曲，但DeepSeek-V3的能力还是不容小觑。在测试中，它展现了很强的应变能力。

对于无解的数学问题，DeepSeek-V3能够指出题目中给出的数据可能有误或问题本身存在矛盾。
对于数字比较问题，DeepSeek-V3能够给出正确的答案。
对于常识性问题，DeepSeek-V3能够给出合理的解释。

罗福莉

对于错误的问题，DeepSeek-V3能够指出其不合理之处。

从这些测试来看，DeepSeek-V3的能力确实令人印象深刻。

AI界拼多多，DeepSeek的背后故事

DeepSeek还有一个外号，叫做AI界的拼多多。这源于今年5月，DeepSeek V2开源模型发布，将推理成本降到了每百万token仅1块钱，约等于Llama 370B的七分之一，GPT-4 Turbo的七十分之一。当时，DeepSeek就被冠以AI界拼多多的称号。

据悉，这背后是DeepSeek提出了一种崭新的MLA架构，把显存占用降到了过去最常用的MHA架构的5%-13%。同时，DeepSeek独创的DeepTransformer算法进一步提升了训练效率和模型性能。

结语

Deepseek的横空出世，标志着AI技术发展进入了一个新的阶段。低成本、高性能的大模型正在成为AI领域的常态。而DeepSeek-V3的出现，无疑又将给这个领域带来更多惊喜和挑战。让我们拭目以待，见证AI技术在未来创造更多的奇迹。

本文版权声明本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请联系本站客服，一经查实，本站将立刻删除。

上一篇盒马前CEO侯毅因无路可走向胖东来取经独家

下一篇小鹏汽车创始人何小鹏发出回归号召共创2025

发表评论