几句话谈DeepSeek-拿破仑-万维博客-万维读者网（电脑版）

设万维读者为首页

万维读者网 -- 全球华人的精神家园

广告服务

联系我们

关于万维

首　页

新　闻

视　频

博　客

论　坛

分类广告

购　物


		拿破仑的博客
	https://blog.creaders.net/u/34696/ > 复制 > 收藏本页	追求真相，匡扶正义

网络日志正文

		几句话谈DeepSeek	2025-01-28 08:19:58

几句话谈DeepSeek

沙河

科技研发就像走迷宫，一路过去有许多分岔。每个分叉口有多个选择: 左拐，右拐，后退或其它。

大概可以这么说，在AI 大模型研发迷宫路径的一个分叉口上，目前所有AI公司都跟它们的先行者，openAI一样往左拐。只有DeepSeek 选择了右拐。结果发现，向右拐才是捷径(至少目前看来是)。

左拐，在这里是指在大模型后训练中使用监督学习微调; 右拐，采用纯强化学习。

Deep Seek另辟蹊径，右拐，可能因为强化学习是它们的强项。而多年前，openAI 没有右拐，可能因为当时强化学习才出来不久，他们还没有掌握这一技术。

强化学习源于优化算法中的动态规划(dynamic programming)。AI的强化学习就是让大模型神经网络根据动态规划的算法不断更新参数。

通过强化学习可以培养AI 大模型的推理能力，掌握用数学方程表述的人类知识(在这之前AI 学会的都是用文字表述的人类知识），比如广义相对论，量子力学等等。笔者过去一、二年里就多次建议中国AI ，特别是AGI, ASI 的研发者，关注强化学习。

但是强化学习/动态规划有点难。它在计算机算法的教科书里是靠后的，许多未来的马工没学明白就翻过去了。在人工智能机器学习的教科书里，老的没有强化学习，新的也是靠后。

对强化学习/动态规划的技术掌握最好的包括从事计算金融/量化金融的研发人员，他们开发的量化交易模型几乎都是基于动态规划。(掌握强化学习动态规划技术的还包括从事军工研发,比如导弹火箭卫星的技术人员。前几年在车祸中去世的一个被称为军中顶尖人工智能专家的，就曾经在哈佛进修过强化学习)。

DeepSeek团队从量化金融算法的研发转过来，强化学习是他们的看家本领，运用于AI 大模型更是轻车熟路。所以他们后来居上，一鸣惊人，是在意料之中。DeepSeek的成就是实质性的突破，说可比当年苏联的Sputnik卫星并不为过。说他们的模型是套壳的，是剽窃的，是外行话。

浏览(1612)

(6)

发表评论


			文章评论

作者：拿破仑回复墙内真相

留言时间：2025-01-29 05:20:24

不奇怪。人类社会，少不了噪声。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：墙内真相

留言时间：2025-01-28 10:56:04

你说不是就不是？轮子，民逗，1450都说是抄袭剽窃。


	回复 \| 0 评论前需要先登录或者注册哦发表

我的名片

拿破仑

注册日期: 2024-10-12
访问总量: 653,098 次

· 2023年10月，李克强“自毙”于游泳

· 从DeepSeek 窃取美国技术的指控

· 五块墓碑和Shanechen 得有多蠢

2026-01-01 - 2026-01-14

2025-12-02 - 2025-12-31

2025-11-01 - 2025-11-30

2025-10-01 - 2025-10-31

2025-09-01 - 2025-09-30

2025-08-01 - 2025-08-30

2025-07-01 - 2025-07-31

2025-06-01 - 2025-06-30

2025-05-01 - 2025-05-30

2025-04-01 - 2025-04-30

2025-03-01 - 2025-03-31

2025-02-01 - 2025-02-28

2025-01-01 - 2025-01-31

2024-12-01 - 2024-12-30

2024-11-01 - 2024-11-29

2024-10-16 - 2024-10-31