中国企业对硅谷的挑战 显卡的重要性衰退 (中国企业对硅业的贡献)

科技资讯 2025-01-03 12:54:50 浏览
时候

在西方还在沉浸在圣诞假期,疯狂过年的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型DeepSeek,甚至有股做空英伟达的味道。具体咋回事儿,咱给你唠明白咯。

DeepSeek-V3 开源性能一流

前几天,DeepSeek 刚刚公布。更有意思的是,做到这些的公司既不是什么大厂,也不是纯血AI 厂商。DeepSeek 公司中文名叫深度求索,他们本来和AI 没任何关系。就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。

深度

而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。早在2019 年,幻方就投资2亿元搭建了自研深度学习训练平台萤火虫一号,到了2021 年已经买了足足1 万丈英伟达A100 显卡的算力储备了。要知道,这个时候大模型没火,万卡集群的概念更是还没出现。

而正是凭借这部分硬件储备,幻方才拿到了AI 大模型的入场券,最终卷出了现在的V3。你说好好的一个量化投资领域的大厂,干嘛要跑来搞AI 呢?深度求索的CEO 梁文锋在接受采访的时候给大家聊过,并不是什么看中AI 前景。而是在他们看来,通用人工智能可能是下一个最难的事之一,对他们来说,这是一个怎么做的问题,而不是为什么做的问题。

就是抱着这么股莽劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲V3 有啥特别的地方。

V3 性能强悍

首先就是性能强悍,目前来看,在V3 面前,开源模型几乎没一个能打的。还记得去年年中,小扎的Meta 推出模型Llama3.1,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在V3 手里,基本是全面落败。

而在各种大厂手里的闭源模型,那些大家耳熟能详的什么GPT-4o、Claude3.5Sonnet 啥的,V3 也能打得有来有回。你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。

V3 成本低廉

大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。所以在圈子里有了一个新的计量单位GPU 时,也就是用了多少块GPU 花了多少个小时的训练时间。GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。

前面说的此前开源模型王者,Llama3.1405B,训练周期花费了3080 万GPU 时。可性能更强的V3,只花了不到280 万GPU 时。以钱来换算,DeepSeek 搞出V3 版本,大概只花了4000 多万人民币。而Llama3.1405B 的训练期间,Meta 光是在老黄那买了16000 多个GPU,保守估计至少都花了十几亿人民币。至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。

DeepSeek 技术傍身

你别以为DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼CTO 池光耀,他们主力发展企业向的agent 数字人,早就是DeepSeek 的铁粉了。池光耀告诉我们,DeepSeek 在NLP 领域,本文质量极高。在知识蒸馏、算力优化上面有着独到的见解。他们的技术架构非常独特,使用了一种叫做知识蒸馏的创新方法,可以大大降低训练成本,提升模型性能。

池光耀还表示,DeepSeek 团队非常善于利用低成本的GPU 集群来训练大模型,这让他们在成本控制方面有着很大的优势。DeepSeek 还开发了一套名为“DeepVault”的工具,可以帮助用户轻松部署和管理大模型。有了这套工具,用户可以将大模型集成到自己的产品和服务中,从而快速实现人工智能赋能。

DeepSeek 未来可期

DeepSeek 的出现,标志着国产大模型已经步入世界一流水平。它不仅证明了中国企业在人工智能领域的创新能力,也为国内企业和开发者提供了新的选择。相信在DeepSeek 的带动下,中国大模型产业将迎来蓬勃发展。未来,DeepSeek 有望成为中国人工智能领域的一颗璀璨明星,为我国科技进步和产业转型做出更大的贡献。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐