bold weight span style=font span 显卡时代落幕 中国公司颠覆硅谷传统 (boldwellnessclub)

科技资讯 2025-01-04 08:56:00 浏览

就在西方沉浸在圣诞假期,疯狂过年的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。

一、国产巨兽横空出世

模型
  1. 宇树科技机器狗:让波士顿动力黯然失色
  2. 国产大模型 DeepSeek:竟有做空英伟达的味道

DeepSeek V3 特点

  • 开源:与大洋彼岸那个自称 Open,却越来越 Close 的公司产品不同,DeepSeek-V3 是开源的。
  • 性能:国际一流,有望超过部分闭源模型。
  • 算力
  • 技术:牛逼哄哄,采用业内先进技术。
  • 价格:击穿地心,远低于其他大模型厂商。

二、国际巨头惊呼

  1. OpenAI 创始人 Karpathy:难道说大模型们压根不需要大规模显卡集群?
  2. Meta AI 技术官:DeepSeek 的成果伟大。
  3. 著名 AI 评测博主 TimDettmers:DeepSeek 的处理优雅。

三、从量化投资到 AI 霸主

令人惊讶的是,做到这一切的公司既不是什么大厂,也不是纯血 AI 厂商。DeepSeek 公司中文名叫深度求索,他们原本与 AI 没有任何关系,而是私募机构幻方量化的一个团队。

早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台萤火虫一号,到了 2021 年已经买了足足 1万张英伟达 A100 显卡的算力储备。这部分硬件储备让他们拿到了 AI 大模型的入场券。

四、技术亮点

4000 万人民币,打造性能超群的模型

目前开源模型中,几乎没有一个能和 DeepSeek V3 匹敌。DeepSeek V3 仅花费 280 万 GPU 时,而此前的大模型王者 Llama 3.1 405B 训练周期却需要 3080 万 GPU 时。以钱来换算,DeepSeek V3 版本的训练成本仅为 4000 多万人民币,而 Llama 3.1 405B 的训练成本至少需要十几亿人民币。

五、业内观点

语核科技创始人兼 CTO 池光耀表示,DeepSeek 的技术非常了不起,他们的数字人已经成为 DeepSeek 的忠实粉丝。

业内人士一致认为,DeepSeek V3 的出现将对大模型行业产生重大影响,其开源和低成本的优势将为众多 AI 研究人员和企业提供更加便捷和经济高效的大模型使用途径。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐