设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
     
  拿破仑的博客
  追求真相, 匡扶正义
我的名片
拿破仑
注册日期: 2024-10-12
访问总量: 138,112 次
点击查看我的个人资料
Calendar
我的公告栏
最新发布
· 中国青年报匪徒不被处以极刑,天
· 从DeepSeek 窃取美国技术的指控
· 大年初一,不要忘记国家的敌人还
· 几句话谈DeepSeek
· 旧帖: 不要忘记国家的敌人
· 礼拜天,我们一起来祷告吧!
· 一份现在马上就应该被处死的恶人
友好链接
分类目录
【杂谈】
· 从DeepSeek 窃取美国技术的指控
· 大年初一,不要忘记国家的敌人还
· 几句话谈DeepSeek
· 旧帖: 不要忘记国家的敌人
· 一份现在马上就应该被处死的恶人
· 春节前,可以去一趟北京
· 残雪大概率不会得诺贝尔文学奖
· 中国三K党的末日
· 几句话评论柴静的新作
· 团派祸国殃民何时了?
【哈佛博士案】
· 中国青年报匪徒不被处以极刑,天
· 礼拜天,我们一起来祷告吧!
· 路透社: 德国政府庇护中国顶尖人
· AI用词温和,它可能没看懂中国青
· 跟华盛顿一起晨祷!
· 安徽人李克强是被天灭于上海游泳
· 海外社交媒体仍然被团派残渣余孽
· 岂止丧心病狂!“中华第一才子”
· 如果恶媒独立,没有一个人是安全
· 一份当下就应该被处死的恶人名单
存档目录
01/01/2025 - 01/31/2025
12/01/2024 - 12/31/2024
11/01/2024 - 11/30/2024
10/01/2024 - 10/31/2024
发表评论
作者:
用户名: 密码: 您还不是博客/论坛用户?现在就注册!
     
评论:
几句话谈DeepSeek
   

几句话谈DeepSeek


沙河


科技研发就像走迷宫,一路过去有许多分岔。每个分叉口有多个选择: 左拐,右拐,后退或其它。


大概可以这么说,在AI 大模型研发迷宫路径的一个分叉口上,目前所有AI公司都跟它们的先行者,openAI一样往左拐。只有DeepSeek 选择了 右拐。结果发现,向右拐才是捷径(至少目前看来是)。


左拐,在这里是指在大模型后训练中使用监督学习微调;  右拐,采用纯强化学习。


Deep Seek另辟蹊径,右拐,可能因为强化学习是它们的强项。而多年前,openAI 没有右拐,可能因为当时强化学习才出来不久,他们还没有掌握这一技术。


强化学习源于优化算法中的动态规划(dynamic programming)。AI的 强化学习就是让大模型神经网络根据动态规划的算法不断更新参数。


通过强化学习可以培养AI 大模型的推理能力,掌握用数学方程表述的人类知识(在这之前AI 学会的都是用文字表述的人类知识), 比如广义相对论,量子力学等等。笔者过去一、二年里就多次建议中国AI ,特别是AGI, ASI 的研发者,关注强化学习。


但是强化学习/动态规划有点难。 它在计算机算法的教科书里是靠后的,许多未来的马工没学明白就翻过去了。在人工智能机器学习的教科书里,老的没有强化学习,新的也是靠后。


对强化学习/动态规划的技术掌握最好的包括从事计算金融/量化金融的研发人员,他们开发的量化交易模型几乎都是基于动态规划。(掌握强化学习动态规划技术的还包括从事军工研发,比如导弹火箭卫星的技术人员。前几年在车祸中去世的一个被称为军中顶尖人工智能专家的,就曾经在哈佛进修过强化学习)。


DeepSeek团队从量化金融算法的研发转过来,强化学习是他们的看家本领, 运用于AI 大模型更是轻车熟路。所以他们后来居上,一鸣惊人,是在意料之中。DeepSeek的成就是实质性的突破,说可比当年苏联的Sputnik卫星并不为过。说他们的模型是套壳的,是剽窃的,是外行话。




 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.