深度学习模型DeepSeek-V3惊艳亮相,性能超群
近日,AI领域风起云涌,Deepseek横空出世,迅速霸占头条。12月26日,Deepseek宣布全新系列模型DeepSeek-V3首个版本正式上线并开源。据官方称,DeepSeek-V3在多项评测中超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,其性能与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。
更令人瞩目的是,官方技术本文披露,v3模型的总训练DeepSeek-V3给出了高度评价。
DeepSeek-V3也给自己挖了一个坑。有人发现,当用英文whatmodelareyou向DeepSeek-V3提问它是哪家大模型时,它却给出了ChatGPT的答案。而用中文或给whatmodelareyou加上问号,DeepSeek-V3则能够正确回答。对此,DeepSeek官方尚未做出回应。
有分析认为,这一现象可能源于DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本,导致它记住了ChatGPT的某些输出,并错误地将自己识别为ChatGPT。
DeepSeek-V3能力全面,应对问题游刃有余
尽管出现了小插曲,但DeepSeek-V3的能力还是不容小觑。在测试中,它展现了很强的应变能力。
- 对于无解的数学问题,DeepSeek-V3能够指出题目中给出的数据可能有误或问题本身存在矛盾。
- 对于数字比较问题,DeepSeek-V3能够给出正确的答案。
- 对于常识性问题,DeepSeek-V3能够给出合理的解释。
- 对于错误的问题,DeepSeek-V3能够指出其不合理之处。
从这些测试来看,DeepSeek-V3的能力确实令人印象深刻。
AI界拼多多,DeepSeek的背后故事
DeepSeek还有一个外号,叫做AI界的拼多多。这源于今年5月,DeepSeek V2开源模型发布,将推理成本降到了每百万token仅1块钱,约等于Llama 370B的七分之一,GPT-4 Turbo的七十分之一。当时,DeepSeek就被冠以AI界拼多多的称号。
据悉,这背后是DeepSeek提出了一种崭新的MLA架构,把显存占用降到了过去最常用的MHA架构的5%-13%。同时,DeepSeek独创的DeepTransformer算法进一步提升了训练效率和模型性能。
结语
Deepseek的横空出世,标志着AI技术发展进入了一个新的阶段。低成本、高性能的大模型正在成为AI领域的常态。而DeepSeek-V3的出现,无疑又将给这个领域带来更多惊喜和挑战。让我们拭目以待,见证AI技术在未来创造更多的奇迹。
发表评论