发表评论-拿破仑-万维博客-万维读者网（电脑版）

设万维读者为首页

万维读者网 -- 全球华人的精神家园

广告服务

联系我们

关于万维

首　页

新　闻

视　频

博　客

论　坛

分类广告

购　物


		拿破仑的博客
	https://blog.creaders.net/u/34696/ > 复制 > 收藏本页	追求真相，匡扶正义

我的名片

拿破仑

注册日期: 2024-10-12
访问总量: 637,503 次

· A I大吃一惊，自行标注中国青年

· 什么是国宝? 谁是国宝?

· 川普为何拒绝马查多

· AI 评论胡锦涛李克强胡春华

· 中青报匪徒阿妞不牛又在装神弄鬼

· 至高无上的主，万有的主宰:

· 一个健康的社会不应该只有一种声

【关于团派/共青团】

【哈佛博士事件真相】

【报告中共中央】

【陈琳博士】

【关于李克强】

【人工智能】

· 从DeepSeek 窃取美国技术的指控

【驳斥"阿妞不牛"】

【杂谈】

· 五块墓碑和Shanechen 得有多蠢

【中国青年报的罪恶】

01/01/2026 - 01/31/2026

12/01/2025 - 12/31/2025

11/01/2025 - 11/30/2025

10/01/2025 - 10/31/2025

09/01/2025 - 09/30/2025

08/01/2025 - 08/31/2025

07/01/2025 - 07/31/2025

06/01/2025 - 06/30/2025

05/01/2025 - 05/31/2025

04/01/2025 - 04/30/2025

03/01/2025 - 03/31/2025

02/01/2025 - 02/28/2025

01/01/2025 - 01/31/2025

12/01/2024 - 12/31/2024

11/01/2024 - 11/30/2024

10/01/2024 - 10/31/2024

发表评论

敬告：您的浏览器已关闭活动脚本，开启后才可正常使用！

作者：

用户名：

密码：

您还不是博客/论坛用户？现在就注册！

评论：

几句话谈DeepSeek

沙河

科技研发就像走迷宫，一路过去有许多分岔。每个分叉口有多个选择: 左拐，右拐，后退或其它。

大概可以这么说，在AI 大模型研发迷宫路径的一个分叉口上，目前所有AI公司都跟它们的先行者，openAI一样往左拐。只有DeepSeek 选择了右拐。结果发现，向右拐才是捷径(至少目前看来是)。

左拐，在这里是指在大模型后训练中使用监督学习微调; 右拐，采用纯强化学习。

Deep Seek另辟蹊径，右拐，可能因为强化学习是它们的强项。而多年前，openAI 没有右拐，可能因为当时强化学习才出来不久，他们还没有掌握这一技术。

强化学习源于优化算法中的动态规划(dynamic programming)。AI的强化学习就是让大模型神经网络根据动态规划的算法不断更新参数。

通过强化学习可以培养AI 大模型的推理能力，掌握用数学方程表述的人类知识(在这之前AI 学会的都是用文字表述的人类知识），比如广义相对论，量子力学等等。笔者过去一、二年里就多次建议中国AI ，特别是AGI, ASI 的研发者，关注强化学习。

但是强化学习/动态规划有点难。它在计算机算法的教科书里是靠后的，许多未来的马工没学明白就翻过去了。在人工智能机器学习的教科书里，老的没有强化学习，新的也是靠后。

对强化学习/动态规划的技术掌握最好的包括从事计算金融/量化金融的研发人员，他们开发的量化交易模型几乎都是基于动态规划。(掌握强化学习动态规划技术的还包括从事军工研发,比如导弹火箭卫星的技术人员。前几年在车祸中去世的一个被称为军中顶尖人工智能专家的，就曾经在哈佛进修过强化学习)。

DeepSeek团队从量化金融算法的研发转过来，强化学习是他们的看家本领，运用于AI 大模型更是轻车熟路。所以他们后来居上，一鸣惊人，是在意料之中。DeepSeek的成就是实质性的突破，说可比当年苏联的Sputnik卫星并不为过。说他们的模型是套壳的，是剽窃的，是外行话。