放飞光彩!今年涌现的杰出天才少女 (放飞精彩)

科技资讯 2024-12-31 13:06:53 浏览
模型

最近几天,Deepseek在 AI 圈子里火得一塌糊涂。

12 月 26 日,Deepseek 宣布全新系列模型 DeepSeek-V3 首个版本上线并同步开源。官方称,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。官方技术本文还披露,v3 模型的总p>

比如,Meta 科学家田渊栋称,DeepSeek-V3 的训练看上去是黑科技,这是非常伟大的工作。MenloVenture 的投资人表示:53 页的技术本文是黄金。

不过,DeepSeek-V3 也给自己挖了一个坑。很快就有人发现,当用英文 what mode are you 向 DeepSeek-V3 提问它是哪家大模型时,它却给出了 ChatGPT 的答案。而用中文或给 what mode are you 加上问号,DeepSeek-V3 则能够正确回答。

不过,DeepSeek 官方还未对此做出回应。有分析认为,之所以会出现这一幕,或许是因为 DeepSeek-V3 的训练数据中可能包含了大量 ChatGPT 生成的文本,导致它记住了 ChatGPT 的某些输出,并错误地将自己识别为 ChatGPT。今日,三言测试发现,该 BUG 已修复。

DeepSeek 应对难题的能力

三言还测试了几个此前曾让众多大模型翻车的问题

  1. 1 个笼子里装着免子和鸡,一共有 20 个头,45 只脚,请问免子和鸡各有多少只?
  2. 9.11 和 9.9 哪个数字大?
  3. 天才少女
  4. 蒸一个包子需要 5 分钟,蒸 10 个包子需要几分钟?
  5. 为什么爸妈结婚没叫我参加婚礼?
  6. 麻辣螺丝钉怎么做?

DeepSeek-V3 对这些问题的回答都比较令人满意。这也表明了 DeepSeek-V3 的能力确实不错。

AI 界拼多多

据悉,DeepSeek 还被称为 AI 界拼多多。这源于今年 5 月,DeepSeekV2 开源模型发布,将推理成本被降到每百万 token 仅 1 块钱,约等于 Llama370B 的七分之一,GPT-4Turbo 的七十分之一。当时,DeepSeek 就被冠以 AI 界拼多多之称。

小米

据悉,这背后是 DeepSeek 提出了一种崭新的 MLA 架构,把显存占用降到了过去最常用的 MHA 架构的 5%-13%,同时,DeepSeek 独创的 DeepDrop 策略通过教师模型指导学生模型学习,大大提高了大模型的训练效率。

DeepSeek 的出现给 AI 领域带来了新的活力。其低廉的训练成本和不俗的性能表现,让大规模部署 AI 模型成为可能。随着 DeepSeek 的不断发展,其在 AI 领域的应用也将更加广泛。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐