就在西方还沉浸在圣诞假期,疯狂过年的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。
前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型 DeepSeek,甚至有股做空英伟达的味道。具体咋回事儿,咱给你唠明白咯。
开源与国际一流性能的双重优势
前几天,DeepSeek 刚刚公布最新版本 V3。注意,与大洋彼岸那个自称 Open,却越来越 Close 的公司产品不同,这个 V3 是开源的。
不过开源还不是他最重要的标签,DeepSeek-V>
就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。
早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台萤火虫一号,到了 2021 年已经买了足足 1 万张英伟达 A100 显卡的算力储备了。要知道,这个时候大模型没火,万卡集群的概念更是还没出现。
而正是凭借这部分硬件储备,幻方才拿到了 AI 大模型的入场券,最终卷出了现在的 V3。
你说好好的一个量化投资领域的大厂,干嘛要跑来搞 AI 呢?深度求索的 CEO 梁文锋在接受采访的时候给大家聊过,并不是什么看中 AI 前景。
而是在他们看来,通用人工智能可能是下一个最难的事之一,对他们来说,这是一个怎么做的问题,而不是为什么做的问题。就是抱着这么股莽劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲 V3 有啥特别的地方。
性能碾压:开源模型中无出其右
首先就是性能强悍,目前来看,在 V3 面前,开源模型几乎没一个能打的。
还记得去年年中,小扎的 Meta 推出模型 Llama3.1,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本是全面落败。
而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o、Claude3.5Sonnet 啥的,V3 也能打得有来有回。
你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。
成本优势:价格仅为竞争对手的零头
大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。
所以在圈子里有了一个新的计量单位 GPU 时,也就是用了多少块 GPU 花了多少个小时的训练时间。GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。
前面说的此前开源模型王者,Llama3.1405B,训练周期花费了 3080 万 GPU 时。可性能更强的 V3,只花了不到 280 万 GPU 时。
以钱来换算,DeepSeek 搞出 V3 版本,大概只花了 4000 多万人民币。而 Llama3.1405B 的训练期间,Meta 光是在老黄那买了 16000 多个 GPU,保守估计至少都花了十几亿人民币。
至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。你别以为 DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。
技术优势:深度求索自研算法
为了搞清楚 DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼 CTO 池光耀,他们主力发展企业向的 agent 数字人,早就是 DeepSeek 的铁粉了。
池光耀告诉我们,DeepSeek 在大模型的训练过程中,采用了自研的算法和优化技术,能够显著提升模型的训练效率和效果。
DeepSeek 还开发了一个高效的训练框架,可以充分利用多机多卡的算力资源,进一步降低训练成本。
听完池光耀的介绍,我们才明白,DeepSeek 的实力来自于他们深厚的算法和工程能力。他们不仅有能力搭建起万卡集群这样的基础设施,还能自己优化算法,压榨每一分算力的价值。
写在最后
DeepSeek 的横空出世,打破了国际大模型厂商的垄断,让所有人都看到了中国 AI 企业的实力。他们用实际行动证明,中国人不仅能造出世界领先的大模型,还能用更少的成本,做出更好的效果。
DeepSeek 的成功,也给国内的 AI 企业带来了巨大的信心。相信在未来,我们会看到更多中国 AI 企业在世界舞台上大放异彩。
发表评论