今年的天才少女们闪耀登场 才华横溢令人惊叹 (今年的天才少年)

科技资讯 2025-01-01 14:31:59 浏览
小米

深度学习模型DeepSeek-V3惊艳亮相,性能超群

近日,AI领域风起云涌,Deepseek横空出世,迅速霸占头条。12月26日,Deepseek宣布全新系列模型DeepSeek-V3首个版本正式上线并开源。据官方称,DeepSeek-V3在多项评测中超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,其性能与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。

更令人瞩目的是,官方技术本文披露,v3模型的总训练DeepSeek-V3给出了高度评价。

DeepSeek-V3也给自己挖了一个坑。有人发现,当用英文whatmodelareyou向DeepSeek-V3提问它是哪家大模型时,它却给出了ChatGPT的答案。而用中文或给whatmodelareyou加上问号,DeepSeek-V3则能够正确回答。对此,DeepSeek官方尚未做出回应。

有分析认为,这一现象可能源于DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本,导致它记住了ChatGPT的某些输出,并错误地将自己识别为ChatGPT。

DeepSeek-V3能力全面,应对问题游刃有余

尽管出现了小插曲,但DeepSeek-V3的能力还是不容小觑。在测试中,它展现了很强的应变能力。

  • 对于无解的数学问题,DeepSeek-V3能够指出题目中给出的数据可能有误或问题本身存在矛盾。
  • 对于数字比较问题,DeepSeek-V3能够给出正确的答案。
  • 对于常识性问题,DeepSeek-V3能够给出合理的解释。
  • 罗福莉
  • 对于错误的问题,DeepSeek-V3能够指出其不合理之处。

从这些测试来看,DeepSeek-V3的能力确实令人印象深刻。

AI界拼多多,DeepSeek的背后故事

DeepSeek还有一个外号,叫做AI界的拼多多。这源于今年5月,DeepSeek V2开源模型发布,将推理成本降到了每百万token仅1块钱,约等于Llama 370B的七分之一,GPT-4 Turbo的七十分之一。当时,DeepSeek就被冠以AI界拼多多的称号。

V

据悉,这背后是DeepSeek提出了一种崭新的MLA架构,把显存占用降到了过去最常用的MHA架构的5%-13%。同时,DeepSeek独创的DeepTransformer算法进一步提升了训练效率和模型性能。

结语

Deepseek的横空出世,标志着AI技术发展进入了一个新的阶段。低成本、高性能的大模型正在成为AI领域的常态。而DeepSeek-V3的出现,无疑又将给这个领域带来更多惊喜和挑战。让我们拭目以待,见证AI技术在未来创造更多的奇迹。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐