设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
雷歌视角  
让沉默的思想如闪电,点燃我的文字,照亮这个世界。  
https://blog.creaders.net/u/31182/ > 复制 > 收藏本页
网络日志正文
深度:DeepSeek 能不能颠覆全球AI格局? 2025-01-28 01:46:53

深度分析:DeepSeek 能不能颠覆全球AI格局?

雷歌 2025年1月27日


一夜之间,一款“纯中国制造”的AI语言大模型DeepSeek风靡全球,也震撼了硅谷和华尔街。在苹果应用商店,DeepSeek的下载量超过了ChatGPT等热门应用,成为当日第一。而周一开盘的美股市场,以英伟达、博通和台积电为代表的AI概念股均暴跌超10%,纳指暴跌超3%。

一、横空出世

DeepSeek的独门绝技,是相对于全球领先的AI语言大模型如ChatGPT等,只用了非常少的芯片算力和训练成本(大概十分之一或更少),就做出了在功能上与可以与ChatGPT4相媲美的AI大模型平台。据媒体报道,DeepSeek在1月20日最新发布的R1模型,其预训练费用只有557.6万美元,在2048块英伟达H800 GPU(性能比H100要差不少,制裁后专供中国)集群上运行55天就完成了。而美国一些领先的AI大模型平台,一般都要用1.6万张以上的H100GPU芯片,完成一个大模型的训练费用要5亿美元以上。

(注:计算成本的方法和包括的范围可能不同。因为H800芯片的市场价超过20万人民币,2048块的总价值就超过6000万美元,因此说DeepSeek-R1预训练成本不到558万美元,显然不包含购买GPU集群和搭建平台的费用。)

DeepSeek带来的冲击,首先是美国大型AI公司每年几百亿几百亿地烧钱的模式受到质疑,还有没有必要?搞得AI大厂都去抢购囤积英伟达GPU,英伟达芯片价格近年水涨船高,一片都要好几万美元。而英伟达股价也在2023至2024两年间最高涨了超过十倍,超越苹果微软成为全球市值最大的公司。也正因为此,今天英伟达股价暴跌近17%,市值一天内就蒸发近6000亿美元。

另一方面则是对组建AI大模型在技术策略上的启发。DeepSeek的技术策略有没有可能在其它平台复制和推广,甚至成为新的主流技术策略选择呢?多快好省地搭建AI平台,肯定是大势所趋。如果技术上可行,就一定会成为必然选择。但这一点,就目前能收集到的信息看,还是不确定的。DeepSeek-R1发布后,还有待于业内对它进行深度解构和评估,这需要一定时间。

这两个方面是相互关联的。显然,如果多快好省的技术策略可复制,那目前美国大型AI公司的烧钱模式就立马会被抛弃,短时间内英伟达GPU芯片可能就没那么香了(当然长远看,英伟达芯片还是屹立不倒,因为组建AI平台的费用门槛大幅降低后,会有无数原先没实力进入这一领域的中小公司进入,变成百花齐放,对英伟达GPU芯片的总需求说不定还会扩大)。

二、Bug与隐忧

DeepSeek-R1发布后,业内普遍惊呼这是出人意料的“黑科技”,全行业都受到巨大震动。专业人士分析,DeepSeek在架构设计和优化技术上进行了创新,包括混合专家架构(MoE)、多头潜在注意力机制(MLA)、优化预训练语料库等。这些技术使得DeepSeek能够在保持性能的同时,大幅度降低计算和存储需求。

通俗一点说,就是以下做法:

1、数据压缩:通过MLA架构和FP8混合精度(ChatGPT使用FP16,精度更高,需要的算力就大好多倍),减少数据量,降低内存占用。

2、选择性处理:优先处理重要数据,简化次要数据,提高训练效率。

3、知识蒸馏:利用“教师模型”生成高质量数据,加速“学生模型”训练。

据《每日经济新闻》报道,去年12月27日DeepSeek-V3发布后,许多试用者发现一个奇怪现象,当你问DeepSeek“你是什么模型”时,它会回答:“我是一个名为ChatGPT的AI语言模型,由OpenAI开发。”它还补充说:“是基于GPT-4架构。”

《每日经济新闻》采访了一些AI专家,他们分析可能是DeepSeek-V3模型使用了ChatGPT-4生成文本的公共数据集,对这些数据集进行“知识蒸馏”(即上述第3点),用简便的方法获得新模型需要的有效数据(不必像原创模型那样从海量数据中通过大量试错获得)。使用这些数据训练新模型时,新模型会记住数据的源头特征并反刍表达。

12月27日,OpenAI的CEO 奥特曼(Sam Altman)在X上发帖说:

  “复制你知道有效的东西是(相对)容易的。

   当你不知道某件新奇、有风险且困难的事情是否会成功时,去做它是极其困难的。”

有媒体立刻猜测,这是奥特曼在讽刺竞争对手使用OpenAI的现成数据。而且这也可能是DeepSeek能够在低算力低成本条件下,快速训练出与ChatGPT效果类似的新模型的重要原因之一。

简单归纳,DeepSeek使用的实现低成本快速训练AI大模型的上述三种方法中,第1种“数据压缩”和第2种“选择性处理”都属于DeepSeek的开创性架构设计和工程技术创新。而第3种“知识蒸馏”则留下bug,因为使用别的原创模型输出的数据训练自己的新模型,造成的结果是你的新模型的输出结果,永远不可能超越原创模型。

三、三点结论

分析到这里,现在我可以尝试回答大家都关注的最核心问题:DeepSeek的横空出世会不会颠覆美国一路领先的全球AI格局?DeepSeek会给全球AI发展带来哪些积极影响?

我有三点不太成熟的结论供大家参考:

1)DeepSeek的低成本快速成型模式,首先从方法上对AI行业造成巨大的思想冲击,富有启发性,将强有力地推动其它AI公司改变以前一味强调高投入的思维定势,转向探索低成本快速搭建模型平台的技术可能性。我相信这种转变一定会出成果。因此DeepSeek给全行业带来的启示意义重大。

2)DeepSeek目前使用的工程构思和技术策略能不能复制到其它AI平台的搭建,尤其是方法1和方法2,目前尚无定论,有待业内进一步尝试和探索。如果能够复制,那对AI行业的下一步发展将影响深远。即使不能完全复制,哪怕是借鉴这种思路,如压缩数据的架构设计和优先处理重点数据的技术创新,也将是非常积极的影响,很可能在不远的将来带来巨大成果,甚至是革命性的技术突破。

3)以DeepSeek目前的现有成果,无法改变美国引领AI的全球格局,也不会改变中国在AI领域模仿、学习和追赶美国的总体姿态。尽管DeepSeek的方法具有开创性,但DeepSeek的最终产品因为“数据蒸馏”依然缺乏原创,严格说来还是个山寨品。

“数据蒸馏”决定了DeepSeek输出的基础性产品无法超越原创AI大模型。而且“数据蒸馏”只能在别人已经原创的成果基础上进行。

在更多的AI实际应用领域,如生物医疗服务、自动驾驶、AI机器人等还在开发的应用中,“数据蒸馏”在原创模型获得成功前无法做到,在原创模型获得成功后又可能遇到不会开源分享的难题(因为利益冲突),因而没有用武之地。一切原创的AI应用模型,只能老老实实投入算力、时间和资金。这可能也是目前的DeepSeek无法从根本上改变全球AI格局的深层原因。

比如在市场潜力巨大的自动驾驶和AI机器人领域,目前领先的是马斯克的特斯拉。根据特斯拉FSD自动驾驶AI平台目前的迭代速度,它很可能在未来三至六个月内越过L4临界点,达到完全无人驾驶标准(更高级别还有L5)。但特斯拉FSD无人驾驶实现后,原创者不大可能在短时间开源分享数据和算法,让竞争对手通过“数据蒸馏”快速萃取而分享或蚕食自己的市场。这类有市场前景的AI应用只能依赖于原创而不是山寨。反而是一些涉及公共服务的领域如生物医疗等AI应用,倒有可能更快地开源分享。


更多精彩内容请看:

1)万维博客“雷歌视角”:

https://blog.creaders.net/uindex.php

2)油管频道“雷歌视角”:

https://www.youtube.com/channel/UClfm_D5GrSVn59znfs8JD1g

欢迎关注“雷歌视角”,帮你挖掘新闻背后的新闻。

欢迎订阅、转发和点赞。谢谢!


浏览(1769) (9) 评论(3)
发表评论
文章评论
作者:雷歌747 回复 破棉袄 留言时间:2025-01-28 14:14:18

数据压缩和选择性处理,涉及到平台的基础架构和算法,怎么能不重要?

回复 | 0
作者:破棉袄 留言时间:2025-01-28 13:25:47

数据压缩和选择性处理,都不重要吧。最重要的是Deep Seek把后期那步监督微调(SFT)改进成了非监督强化学习,这样舍去了标记数据瓶颈,模型性能提高的效率高了。 这套方法应该能被别人运用,也就是说10%的算力达到接近100%的性能,如果施加100%的算力能到达到接近1000%的性能吗?答案很可能肯定的。进而,施加1000%的算力,能到达10000%的性能吗?如果答案肯定的话,AGI就实现了。

回复 | 1
作者:转个帖 留言时间:2025-01-28 13:11:35

属于渐进性的改良,不具备突破性的意义。大吹大擂的目的很可能是对美国加紧芯片禁运的政策进行反宣传。背后的希望可能是美帝放弃封锁,然后用国家财力就能购入大量高阶芯片建立军用系统。

国家间战略级的技术对抗依旧会依赖于复杂芯片系统的能力。所谓的“小米加步枪”打打兵无斗志的国民党军可以,到了朝鲜战场上,拿着苏式装备也干不过联合国军的飞机大炮。

回复 | 4
我的名片
雷歌747 ,3岁
注册日期: 2022-06-17
访问总量: 1,851,847 次
点击查看我的个人资料
Calendar
最新发布
· DeepSeek偷了​OpenAI
· 深度:DeepSeek 能不能颠覆全球A
· LG杯决赛柯洁连续两盘违规判负创
· 川普新政将是一场伟大的社会变革
· 川普对TT态度大反转 澄清三疑惑
· 国会投票戏剧性大翻转 议长约翰
· 马斯克出手惊天动地 国会预算案
分类目录
【时政评论】
· DeepSeek偷了​OpenAI
· 深度:DeepSeek 能不能颠覆全球A
· LG杯决赛柯洁连续两盘违规判负创
· 川普新政将是一场伟大的社会变革
· 川普对TT态度大反转 澄清三疑惑
· 国会投票戏剧性大翻转 议长约翰
· 马斯克出手惊天动地 国会预算案
· TikTok面临封禁命悬一线 川普会
· 突发:叙利亚叛军攻入首都 阿萨
· 拜登出尔反尔赦免儿子亨特 这项
存档目录
2025-01-19 - 2025-01-29
2024-12-02 - 2024-12-21
2024-11-03 - 2024-11-27
2024-10-02 - 2024-10-29
2024-09-10 - 2024-09-27
2024-08-03 - 2024-08-26
2024-07-13 - 2024-07-31
2024-06-02 - 2024-06-28
2024-05-01 - 2024-05-31
2024-04-03 - 2024-04-19
2024-03-01 - 2024-03-31
2024-02-08 - 2024-02-28
2024-01-04 - 2024-01-30
2023-12-01 - 2023-12-22
2023-11-01 - 2023-11-29
2023-10-03 - 2023-10-27
2023-09-03 - 2023-09-29
2023-08-03 - 2023-08-27
2023-07-04 - 2023-07-31
2023-06-03 - 2023-06-29
2023-05-03 - 2023-05-28
2023-04-02 - 2023-04-30
2023-03-02 - 2023-03-31
2023-02-06 - 2023-02-26
2023-01-18 - 2023-01-30
2022-12-01 - 2022-12-22
2022-11-03 - 2022-11-29
2022-10-05 - 2022-10-31
2022-09-06 - 2022-09-30
2022-08-02 - 2022-08-30
2022-07-02 - 2022-07-29
2022-06-16 - 2022-06-29
 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.