设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
明豪的博客  
智慧的灯塔,照亮前行的路。 思想在这里交汇,真理如泉涌!  
网络日志正文
DeepSeek越强,开源生态越繁荣,跑在国产芯片上的应用越多! 2026-05-02 06:36:00

所以现在的情况是DeepSeek越强,开源生态越繁荣,跑在国产芯片上的应用越多,英伟达CUDA的锁定效应就越弱。CUDA锁定效应越弱,国产芯片越有机会迭代。国产芯片越迭代,DeepSeek下一版就能在更强的国产算力上跑。这是第一个正反馈。

DeepSeek每发布一个新模型,华尔街就重估一次“英伟达未来还有没有暴利”。股价一哆嗦,幻方量化靠着做空或波动套利,一把收割。收割来的钱不需要分给股东,不需要买游艇,反手砸进DeepSeek的下一轮研发。这又是一个正反馈。

国家看到了“打掉美国最后一个技术壁垒”的战略价值,于是默许幻方在金融市场上那些野蛮的套利动作。政策包容换来国产半导体生态的加速度,加速度换来更低的卡脖子风险。三方各取所需,DeepSeek在中间既当发动机又当方向盘。

所以,DeepSeek不是什么民族英雄式的单点突破。它是一台算法效率驱动的三层正反馈机器。底层是思维链和推理时计算改变了模型的“代谢率”,中层是开源和低价抽干了闭源巨头的血,外层是资本市场的负反馈为母体持续供血。这三层咬合在一起,比任何单一技术突破或者商业策略都要命。

好了,前面的你都看懂了以后就能理解为什么Deepseek是个核弹级产品...它从算法、生态和商业三个层面彻底瓦解了美国为维持AI霸权所构筑的三大壁垒 - 算力壁垒、生态壁垒和成本壁垒。

DeepSeek最大的冲击,是挑战了“AI性能由高端算力数量决定”的信条。DeepSeek R1模型仅用数百万美元成本,就实现了媲美OpenAI的GPT-5的推理能力。

当西方巨头在堆参数时,DeepSeek凭借混合专家模型(MoE) 和DSA稀疏注意力等架构突破,大幅降低了对显存和算力的需求。这并非简单的“以小博大”,而是证明通过更高效的算法和工程优化,同样可以缩短与巨头成本之间的巨大鸿沟。这也解释了为何其V4-Flash模型的API调用价格,仅为GPT-5.5的百分之一。

DeepSeek的真正战略价值,在于它主动完成了最艰难、也最危险的一步 - “去英伟达化”。为了实现从英伟达CUDA生态向华为昇腾CANN架构的底层迁移,DeepSeek-V4不惜硬生生推迟了半年才发布。得益于这种坚持,其V4系列模型在发布首日(Day 0),就完成了对华为昇腾、寒武纪、摩尔线程等8家国产芯片的全量适配。

在所有冲击中,这一击最为釜底抽薪。美国政策制定者原本希望,通过对华禁售Nvidia高性能芯片,从根本上锁死中国的AI能力。DeepSeek的成功,让这一战略遭遇了全面失败。

2025年以后AI大模型有了一个巨大的进步,就是推理能力(thinking mode),aka思维链(CoT)和 推理时计算。

从LLM的本质出发,理解思维链(CoT)和推理时计算的本质,这里的关键在于看清一个底层矛盾:Transformer的固定深度与复杂问题所需的多步推理之间的不匹配。

Transformer每一层都做一次非线性变换,整个模型有固定层数 LL(如64层)。

自回归生成时,每产生一个token,模型只做一次深度为 LL 的前向传播,且不能回头。

这意味着:对于任何需要超过 LL 步逻辑链才能解决的问题,标准LLM只能“猜”,因为它没有机制在生成下一个词之前打草稿、做中间计算。

思维链的本质:用“时间”换取“深度”,也就是说思维链强制模型将推理过程显式地展开成多个token。

把原本需要单次深度 DD 的计算,拆解为 mm 个深度 LL 的步骤,并通过上下文传递中间状态。整体有效计算深度从 LL 变为 m×Lm×L(因为每一步都基于上一步的输出重新进Transformer)。

但思维链仍是一维的线性链,一步错步步错。推理时计算更进一步可以进行并行扩展(Self-Consistency)和串行扩展+搜索(Tree-of-Thoughts)。

于是结果就变成了: 推理质量≈模型固有能力+f(推理计算量)

其中 f 在初期近似于对数线性增长,直到边际收益递减。推理时计算就是把传统Scaling Law中的 “训练计算量” 部分转移到 “推理计算量” 上,用更灵活的推理时间换取模型体积或训练成本的降低。

思维链和推理时计算,本质上是用算法的时空复杂度(O(步骤数))来补偿模型架构的表达深度限制(O(层数))。它们把LLM从“固定深度的直觉机器”变成了“可编程的符号计算引擎” - 虽然底层仍是神经网络,但行为上已经开始逼近通用图灵机。

思维链和推理时计算扩展了LLM的表达能力(从短路输出到多步展开),但没有改变其统计本质(无意图、无因果、无自我、无价值、无目标创造)。但人的思考是第一人称的、有意识的、价值驱动的、主动构建的过程;LLM的“推理”是第三人称的、盲目的、模式驱动的、被动响应的过程。两者之间存在不可逾越的本质鸿沟,CoT只是让鸿沟看起来窄了一点。

有了这个锚点你就能理解,模型的能力主要来自参数量、数据量和计算量的统一扩展,这就相当于你的价值观有了客观可观事实根基,而不是纯粹的跟风。

从这点来客观比较中美大模型的话:

参数量:美国模型(OpenAI, Anthropic之类)占优(GPT-5据称已达12.8万亿),中国模型在追赶。

数据量:公开信息较少,但是中国的数据量天然比美国多得多。

训练算力:美国暂时占优,中国受制于芯片禁令,国产算力替代是关键。

美国头部模型更像是在“豪赌”规模(Scaling Law),坚信“大力出奇迹”,中国模型则更像是追求“事半功倍”的效率(Efficiency Law)。

这样,你在看中美AI竞赛的时候多少才能看点门道,而不是纯烧Token凑热闹

理解LLM算法本质和Transformer架构是接触AI的“锚点”,因为它为一切上层实践(提示词工程、Agent开发、RAG、微调等)提供了统一的因果坐标系。

没有这个锚点,你很容易在现象层面迷失 - 要么对模型寄予不切实际的期望,要么在它出错时陷入玄学式的归因(“模型太笨”“提示词魔法不够”)。

然后卖课的就盯上你了。


从LLM算法本质来看,这段话切中了当前大模型应用中最容易被忽视的核心矛盾:模型的生成能力不等于人类的思考能力,而模型的输出质量根本上取决于输入信号的结构化程度。

LLM的本质是一个自回归概率模型,给定上文,预测下一个token的概率分布。它的每次生成都依赖于前面的上下文,而上下文完全由你提供。这意味着:

- 模型没有内在的“目标”或“意图”,它只是在拟合训练数据中学到的条件概率。

- 你给的信息越碎片、模糊、情绪化(比如vibe coding那种“随便做点什么好看的东西”),模型的条件分布就越分散,结果就越随机、平庸甚至荒谬。

这正是为什么提示词工程强调“深度、广度、颗粒度” - 深度对应因果链的清晰(消除歧义),广度对应相关条件的覆盖(减少缺失维度),颗粒度对应指令的原子性与可验证性(让每一步的概率峰足够尖锐)。这些本质上是在降低模型生成时的熵,让最可能的token序列恰好是你想要的。

LLM不是上帝,因为它没有意图和规划;但它可以被驱使,因为它的条件概率对结构化的输入极其敏感。你没想明白就干这在算法上等于主动放弃对条件分布的控制,这在任何工程领域都是灾难,在概率生成模型中尤其如此。

你每写一个提示词,本质上都是一次对条件概率的逆向工程,如果模型给出了A而不是你想要的B → 说明你提供的条件中,A的概率更高。你要追问:是哪个词误导了?缺少了什么约束?是否存在冲突的指令?这个过程迫使你把自己的模糊直觉拆解为明确、有序、无歧义的语言,这正是深度思考与精确表达的核心训练。

如果你vibe coding是在让模型替你去模糊化,结果就是你变得越来越依赖随机输出,自己的认知结构却越发松散。换句话说不是你在驾驭AI,是AI在把你变成傻逼。

提示词工程也好,SKILL也罢,各种对LLM的约束尝试,最大的启发不是我们如何调教“无所不知”的大模型,而是让我们自己先学会思考,深度、广度和颗粒度--而这一点和vibe coding这种上头式幼稚不负责的“方法”天生矛盾的。

你可以vibe anything,但不要试图在没想明白之前动手。否则,你以为你播下的是龙种,但最后收获的只能是跳蚤。

靠天吃饭、撒播、不闻不问,那是蛮夷的农耕。而正确的方法应该是华夏农耕的方式:了解天地人,通晓历法节气,了解作物习性,扬长避短,因地制宜。

LLM不是无所不知的上帝,它只是个无所不能的疯孩子。

约束它,然后驱使它---前提是我们知道我们自己要(干)什么,先了解我们自己。

即使做不出什么成熟的产品,但经过实践,我们的思考能力和表达能力会得到极大地提高。




浏览(520) (2) 评论(0)
发表评论
我的名片
明豪
注册日期: 2025-12-10
访问总量: 1,843,136 次
点击查看我的个人资料
Calendar
最新发布
· ​習近平在北京拍桌子?特
· 拯救劳尔!全球堵死美霸权!让老
· 自投羅網還是另有內情?前中共軍
· 曾是美国对伊开战的“副驾驶”,内
· 捅破天了!乌克兰血洗校园,普京
· 赖清德下半场内外交困 、依靠美
· 特朗普,推翻承诺、高市早苗赌输
分类目录
【智库论坛】
· 自投羅網還是另有內情?前中共軍
· 赖清德下半场内外交困 、依靠美
· 【疑雲】4年前視訊被博士後狂親
· 普京访华前 习近平评价中俄各领
· 谈亲历特朗普访华欢迎宴会 中国
· 重慶公安局長張安疆突然離世,真
· 王毅会见伊朗外长,呼吁重新开放
· 【重磅】51區24小時連環17震!哈
· 蔡奇接班信号? 中南海暗流汹涌
· 美军运输机降落北京 疑似为特朗
【军事纵横】
· 美军已定打击计划 以色列准备再
· 日本将打造大量生产无人机体系,“
· 【深度】11名美國軍工、核能與航
· 北约就核政策向中俄施压,督促两
· 军事专家:首过航横当水道威慑日
· 日澳就“最上”级护卫舰完成签约,
· 中国专家解读解放军过航横当水道
· 美国全面公开新一代轰炸机B-21上
· 特朗普进一步升级对伊朗的威胁,
· 惊天逆转!美国发布重磅报告!这
【时事评论】
· 中国籍前俄军在德庇护申请遭拒或
· 美国制裁10名个人和公司 部分来
· 中国在伊朗战争中“两头下注”,寻
· 特朗普来华前夕,老底被掀了
· 中国至今都没有公布特朗普来不来
· 遭名嘴胡忠信批“中共大外宣、双
· 一口气打通6条与伊朗接壤道路!
· 中美高层通话互提不满 但“习特会
· 美国支付联合国会费附带遏制中国
· 美军武力拦截并控制伊朗货船 伊
【经济观察】
· 《華爾街日報》突然丟出一顆“金
· 中國「全方位產業政策」令世界其
· 华为摆脱制裁展开攻势,海外恢复
· JSR将首次在台湾设半导体材料生
· 日本汇率干预背后显极限,160是
· “无AI不汽车”下北京车展智能高
· 中方策略初见成效:三菱宣布钎焊
· 美国关键矿产储备计划细节披露
· 日元汇率“160日元大关”要破?
· 黄金价格正面临一种“定价逻辑切
【海外华人】
· 36小时玩转上海
· 狠戳美国肺管子!中国留学生72小
· 网传牢A在美国绝境逃生,秘密归
· 中国人在日本的现状:最大外籍群
【生活百态】
· 日本儿童人数降至历史最低的1329
· 世界最大的两个骗局,很多人被骗
· 知名网红意外离世 平时爱拍墓地
· 马云的预言要成真了?以下4大职
· 惨剧! 华人剑桥女博士饿死家中
· 心脏决定寿命,建议中老年人别太
· 明豪清明节专题:清明节的思念!
· 天使、航母与蜥蜴人?布兰登2026
· 每天喝两到三杯咖啡可能降低患失
· 年度灵媒揭密 灵魂、来世与2026
【史海钩沉】
· 西哈努克之子被波尔布特杀死的背
· ​历史明镜:「雅利安的谎
· 27年前一双耐克鞋炸出全网:习近
· 50年前南越的沦陷并非战败,而是
· 赵紫阳的五大秘书及其命运
· 女知青零下40度生子 为何所有人
· 文革中红卫兵破四旧时毁坏了中国
· 【揭秘】中纪委书记吴官正之子被
· 【解析】红卫兵的派系是怎么形成
· 王朝更替早已注定?“5大惊人巧合
【娱乐八卦】
· 新闻人间:当AI天才少年也是说唱
· 李雨桐泄露薛之谦手机号身份证号
· 张敬轩从“港独”摇身变“国安导师”
· 被封杀的“池子们”环大陆巡演
· 張家辉拍电影《扫毒》吻戏遇泰国
· 从张国荣逝世23周年想起
· 张柏芝老妈戴莎莉比女儿更会玩!
· 首富郭台铭曾砸4000万别墅追刘嘉
· 福原爱(37岁)近日公开了她的再
· 王奎荣慈悲与智慧兼备!
【养生保健】
· 无论你活得多健康,寿命天注定?
· 你的胆固醇水平健康吗?
· 燕麦有多健康?
· 2026最新“长寿公式”出炉:近6万
· 吃很重要:这些食物可能降低患癌
· 无论你活得多健康,寿命天注定?
· 每天喝两到三杯咖啡可能降低患失
· 北京协和医学博士冯唐宣称:如果
· 日本的平均(1)睡眠7小时42分
· 牛油果有多健康?
【台海风云】
· 台岛民调:22%台湾人愿“和平统一
· 两面人:郑丽文!
· 台湾军购三度协商仍陷分歧 美在
· 台媒民调:43%认为习郑会有助两
· 中东战事耗美军弹药库存 美前官
· 中国官媒:解放军军舰曾与驶入台
· 朱东海:攻心铸基 内外协同
· 【深度】日本如何面对中国的复兴
· 【深度】特朗普对委内瑞拉的突袭
【情感婚姻】
· 英国王室染绿,比较三代王子教育
· 一个女人有这3种表现,往往说明
· 一个很脏但又很现实的男女关系潜
· 歌曲: 下定决心忘记你
· 冬季恋歌 (Winter Love Song)
· 克林顿丑闻里的莱温斯基久违亮相
· 江浙顶级有钱人的“杀猪盘”引发巨
· 【原创首发】歌曲:错把激情当爱
· 【原创首发】歌曲:再见!我的爱
· 【原创】歌曲名:在东京等你!
【世界艺术】
· 在古代,书法地位远比国画高
· 国画中“四君子”的寓意
· 八大山人画石,画的从来不是石的
· 400年前,明朝《清明上河图》弹
【文化长廊】
· 揭秘“百代画圣”吴道子为何没有留
· 【一代宗师】林风眠:我绝不自杀
· 明豪:最亮的一颗星星
· 日本东京等地樱花季的浪漫美景
· 莫言为谁说话?
· 朱东海:雪
· 【完整全高清图珍藏版】黄庭坚书
· 明清之争:美与丑的审视
【科技频道】
· 谷歌終於開竅了?AI「特務」大軍
· 驚呆!中國科學家居然在實驗室裡
· 硅谷男人新爱因斯坦:精子竞速!
· “1秒”将被重新定义,日企技术或
· 日本瞄准东南亚打造稀土供应
· 已发现4种外星人 惊揭“坠毁UFO”
· 【重磅】中美太空战
· 人工智能炒作週期的下一個階段:
· 美媒:DeepSeek首轮融资达500亿
· 宇宙正在加速逃速逃離我們!
【万维首页】
· 世界中等国家为何对“习特会”感到
· 日本经济界摸索小规模访华团维持
· “川习会”名单曝光!黄仁勋 库
· 与其“感谢”这,“感谢”那,不如好
· 伦敦香港经贸办案:卫志梁、袁松
· 史上最无耻的背叛,他们“自由”了
· 【深度】中国到了大崩溃危急时刻
· 想与中国打交道,你必须与我们接
· 美中领导人峰会前夕 跨党派议员
· 5次遇刺皆脱险 揭开川普“不死之
【精品论坛】
· 特朗普,推翻承诺、高市早苗赌输
· 西方研究了40年,终于发现中国顶
· 谈判取得重大突破,伊朗抓住了机
· 突发: 白宫附近数十声枪响! 曝伊
· 经济已不再是中日关系的“压舱石”
· 内塔尼亚胡遭遇毁灭性打击,以色
· 中美兩國精英階層,皆太容易墜入
· 中国千亿国企总裁被美司法部绑架
· 美国正在赢得与中国的金融战争!
· 谷歌CEO皮查伊論Al未來與人類命
【特约评论】
· ​習近平在北京拍桌子?特
· 拯救劳尔!全球堵死美霸权!让老
· 曾是美国对伊开战的“副驾驶”,内
· 捅破天了!乌克兰血洗校园,普京
· 習近平訪朝背後:震懾日本、中美
· 警惕!传教士的后代换了马甲:商
· 遭举报敛财隐婚 陕西道协会长胡
· 美海军代部长:暂缓对台军售以确
· 美中外交的秘訣:《音樂之聲》
· 博士退學生耿同學一人掀翻中國學
【精品系列】
· 特习峰会谈什么?(4) 人权、人工
· 特习峰会谈什么?(3) 伊朗:美中
· 特习峰会谈什么?(2) 台湾:中国
· 特习峰会谈什么?(1) 贸易:美中
存档目录
2026-05-01 - 2026-05-24
2026-04-01 - 2026-04-30
2026-03-01 - 2026-03-31
2026-02-01 - 2026-02-28
2026-01-01 - 2026-01-31
2025-12-10 - 2025-12-31
 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.