设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
明豪的博客  
智慧的灯塔,照亮前行的路。 思想在这里交汇,真理如泉涌!  
网络日志正文
DeepSeek越强,开源生态越繁荣,跑在国产芯片上的应用越多! 2026-05-02 06:36:00

所以现在的情况是DeepSeek越强,开源生态越繁荣,跑在国产芯片上的应用越多,英伟达CUDA的锁定效应就越弱。CUDA锁定效应越弱,国产芯片越有机会迭代。国产芯片越迭代,DeepSeek下一版就能在更强的国产算力上跑。这是第一个正反馈。

DeepSeek每发布一个新模型,华尔街就重估一次“英伟达未来还有没有暴利”。股价一哆嗦,幻方量化靠着做空或波动套利,一把收割。收割来的钱不需要分给股东,不需要买游艇,反手砸进DeepSeek的下一轮研发。这又是一个正反馈。

国家看到了“打掉美国最后一个技术壁垒”的战略价值,于是默许幻方在金融市场上那些野蛮的套利动作。政策包容换来国产半导体生态的加速度,加速度换来更低的卡脖子风险。三方各取所需,DeepSeek在中间既当发动机又当方向盘。

所以,DeepSeek不是什么民族英雄式的单点突破。它是一台算法效率驱动的三层正反馈机器。底层是思维链和推理时计算改变了模型的“代谢率”,中层是开源和低价抽干了闭源巨头的血,外层是资本市场的负反馈为母体持续供血。这三层咬合在一起,比任何单一技术突破或者商业策略都要命。

好了,前面的你都看懂了以后就能理解为什么Deepseek是个核弹级产品...它从算法、生态和商业三个层面彻底瓦解了美国为维持AI霸权所构筑的三大壁垒 - 算力壁垒、生态壁垒和成本壁垒。

DeepSeek最大的冲击,是挑战了“AI性能由高端算力数量决定”的信条。DeepSeek R1模型仅用数百万美元成本,就实现了媲美OpenAI的GPT-5的推理能力。

当西方巨头在堆参数时,DeepSeek凭借混合专家模型(MoE) 和DSA稀疏注意力等架构突破,大幅降低了对显存和算力的需求。这并非简单的“以小博大”,而是证明通过更高效的算法和工程优化,同样可以缩短与巨头成本之间的巨大鸿沟。这也解释了为何其V4-Flash模型的API调用价格,仅为GPT-5.5的百分之一。

DeepSeek的真正战略价值,在于它主动完成了最艰难、也最危险的一步 - “去英伟达化”。为了实现从英伟达CUDA生态向华为昇腾CANN架构的底层迁移,DeepSeek-V4不惜硬生生推迟了半年才发布。得益于这种坚持,其V4系列模型在发布首日(Day 0),就完成了对华为昇腾、寒武纪、摩尔线程等8家国产芯片的全量适配。

在所有冲击中,这一击最为釜底抽薪。美国政策制定者原本希望,通过对华禁售Nvidia高性能芯片,从根本上锁死中国的AI能力。DeepSeek的成功,让这一战略遭遇了全面失败。

2025年以后AI大模型有了一个巨大的进步,就是推理能力(thinking mode),aka思维链(CoT)和 推理时计算。

从LLM的本质出发,理解思维链(CoT)和推理时计算的本质,这里的关键在于看清一个底层矛盾:Transformer的固定深度与复杂问题所需的多步推理之间的不匹配。

Transformer每一层都做一次非线性变换,整个模型有固定层数 LL(如64层)。

自回归生成时,每产生一个token,模型只做一次深度为 LL 的前向传播,且不能回头。

这意味着:对于任何需要超过 LL 步逻辑链才能解决的问题,标准LLM只能“猜”,因为它没有机制在生成下一个词之前打草稿、做中间计算。

思维链的本质:用“时间”换取“深度”,也就是说思维链强制模型将推理过程显式地展开成多个token。

把原本需要单次深度 DD 的计算,拆解为 mm 个深度 LL 的步骤,并通过上下文传递中间状态。整体有效计算深度从 LL 变为 m×Lm×L(因为每一步都基于上一步的输出重新进Transformer)。

但思维链仍是一维的线性链,一步错步步错。推理时计算更进一步可以进行并行扩展(Self-Consistency)和串行扩展+搜索(Tree-of-Thoughts)。

于是结果就变成了: 推理质量≈模型固有能力+f(推理计算量)

其中 f 在初期近似于对数线性增长,直到边际收益递减。推理时计算就是把传统Scaling Law中的 “训练计算量” 部分转移到 “推理计算量” 上,用更灵活的推理时间换取模型体积或训练成本的降低。

思维链和推理时计算,本质上是用算法的时空复杂度(O(步骤数))来补偿模型架构的表达深度限制(O(层数))。它们把LLM从“固定深度的直觉机器”变成了“可编程的符号计算引擎” - 虽然底层仍是神经网络,但行为上已经开始逼近通用图灵机。

思维链和推理时计算扩展了LLM的表达能力(从短路输出到多步展开),但没有改变其统计本质(无意图、无因果、无自我、无价值、无目标创造)。但人的思考是第一人称的、有意识的、价值驱动的、主动构建的过程;LLM的“推理”是第三人称的、盲目的、模式驱动的、被动响应的过程。两者之间存在不可逾越的本质鸿沟,CoT只是让鸿沟看起来窄了一点。

有了这个锚点你就能理解,模型的能力主要来自参数量、数据量和计算量的统一扩展,这就相当于你的价值观有了客观可观事实根基,而不是纯粹的跟风。

从这点来客观比较中美大模型的话:

参数量:美国模型(OpenAI, Anthropic之类)占优(GPT-5据称已达12.8万亿),中国模型在追赶。

数据量:公开信息较少,但是中国的数据量天然比美国多得多。

训练算力:美国暂时占优,中国受制于芯片禁令,国产算力替代是关键。

美国头部模型更像是在“豪赌”规模(Scaling Law),坚信“大力出奇迹”,中国模型则更像是追求“事半功倍”的效率(Efficiency Law)。

这样,你在看中美AI竞赛的时候多少才能看点门道,而不是纯烧Token凑热闹

理解LLM算法本质和Transformer架构是接触AI的“锚点”,因为它为一切上层实践(提示词工程、Agent开发、RAG、微调等)提供了统一的因果坐标系。

没有这个锚点,你很容易在现象层面迷失 - 要么对模型寄予不切实际的期望,要么在它出错时陷入玄学式的归因(“模型太笨”“提示词魔法不够”)。

然后卖课的就盯上你了。


从LLM算法本质来看,这段话切中了当前大模型应用中最容易被忽视的核心矛盾:模型的生成能力不等于人类的思考能力,而模型的输出质量根本上取决于输入信号的结构化程度。

LLM的本质是一个自回归概率模型,给定上文,预测下一个token的概率分布。它的每次生成都依赖于前面的上下文,而上下文完全由你提供。这意味着:

- 模型没有内在的“目标”或“意图”,它只是在拟合训练数据中学到的条件概率。

- 你给的信息越碎片、模糊、情绪化(比如vibe coding那种“随便做点什么好看的东西”),模型的条件分布就越分散,结果就越随机、平庸甚至荒谬。

这正是为什么提示词工程强调“深度、广度、颗粒度” - 深度对应因果链的清晰(消除歧义),广度对应相关条件的覆盖(减少缺失维度),颗粒度对应指令的原子性与可验证性(让每一步的概率峰足够尖锐)。这些本质上是在降低模型生成时的熵,让最可能的token序列恰好是你想要的。

LLM不是上帝,因为它没有意图和规划;但它可以被驱使,因为它的条件概率对结构化的输入极其敏感。你没想明白就干这在算法上等于主动放弃对条件分布的控制,这在任何工程领域都是灾难,在概率生成模型中尤其如此。

你每写一个提示词,本质上都是一次对条件概率的逆向工程,如果模型给出了A而不是你想要的B → 说明你提供的条件中,A的概率更高。你要追问:是哪个词误导了?缺少了什么约束?是否存在冲突的指令?这个过程迫使你把自己的模糊直觉拆解为明确、有序、无歧义的语言,这正是深度思考与精确表达的核心训练。

如果你vibe coding是在让模型替你去模糊化,结果就是你变得越来越依赖随机输出,自己的认知结构却越发松散。换句话说不是你在驾驭AI,是AI在把你变成傻逼。

提示词工程也好,SKILL也罢,各种对LLM的约束尝试,最大的启发不是我们如何调教“无所不知”的大模型,而是让我们自己先学会思考,深度、广度和颗粒度--而这一点和vibe coding这种上头式幼稚不负责的“方法”天生矛盾的。

你可以vibe anything,但不要试图在没想明白之前动手。否则,你以为你播下的是龙种,但最后收获的只能是跳蚤。

靠天吃饭、撒播、不闻不问,那是蛮夷的农耕。而正确的方法应该是华夏农耕的方式:了解天地人,通晓历法节气,了解作物习性,扬长避短,因地制宜。

LLM不是无所不知的上帝,它只是个无所不能的疯孩子。

约束它,然后驱使它---前提是我们知道我们自己要(干)什么,先了解我们自己。

即使做不出什么成熟的产品,但经过实践,我们的思考能力和表达能力会得到极大地提高。




浏览(54) (0) 评论(0)
发表评论
我的名片
明豪
注册日期: 2025-12-10
访问总量: 1,647,999 次
点击查看我的个人资料
Calendar
最新发布
· DeepSeek越强,开源生态越繁荣,
· 日本学者谈中美峰会中习特将达成
· 日本前首相鸠山由纪夫:美国才是
· 一场经典的“最大压力”心理战+经
· 【重磅】谁都没想到!阿联酋退出
· 中方策略初见成效:三菱宣布钎焊
· 一口气打通6条与伊朗接壤道路!
分类目录
【智库论坛】
· 中方这次惹上大麻烦了,多国纷纷
· 美媒:特朗普要求准备长期封锁伊
· 中国的黑客徐泽伟从义大利被引渡
· AI浪潮引发全球股市大洗牌 台湾
· 周亮私下与张又侠联系?爆王岐山
· 中国今起取消制裁欧盟两家银行
· 美国劳工部长洛丽·德雷默因淫乱
· 如果 Mythos 是真的
· 中国市监总局主管媒体披露拼多多
· 特稿:习郑会后惠台10条释农渔便
【军事纵横】
· 美军已定打击计划 以色列准备再
· 日本将打造大量生产无人机体系,“
· 【深度】11名美國軍工、核能與航
· 北约就核政策向中俄施压,督促两
· 军事专家:首过航横当水道威慑日
· 日澳就“最上”级护卫舰完成签约,
· 中国专家解读解放军过航横当水道
· 美国全面公开新一代轰炸机B-21上
· 特朗普进一步升级对伊朗的威胁,
· 惊天逆转!美国发布重磅报告!这
【时事评论】
· 一口气打通6条与伊朗接壤道路!
· 中美高层通话互提不满 但“习特会
· 美国支付联合国会费附带遏制中国
· 美军武力拦截并控制伊朗货船 伊
· 中越联合声明:将铁路合作作为两
· 东南亚国家为能源接近俄罗斯
· 阿联酋、俄罗斯、西班牙、越南高
· 特朗普总统说,美国已开始对进出
· 闯入中国大使馆的日本陆上自卫队
· 三國治天下:特朗普野獸般的感覺
【经济观察】
· 中方策略初见成效:三菱宣布钎焊
· 美国关键矿产储备计划细节披露
· 日元汇率“160日元大关”要破?
· 黄金价格正面临一种“定价逻辑切
· 日本进口中国化工产品大增,日企
· 中国车对美国市场虎视眈眈
· 华尔街日报:Meta准备撤销对Manu
· 日元汇率一度升至158
· 日本央行为什么决定暂不加息?
· 【重磅】中国再现买房排队现象的
【海外华人】
· 36小时玩转上海
· 狠戳美国肺管子!中国留学生72小
· 网传牢A在美国绝境逃生,秘密归
· 中国人在日本的现状:最大外籍群
【生活百态】
· 世界最大的两个骗局,很多人被骗
· 知名网红意外离世 平时爱拍墓地
· 马云的预言要成真了?以下4大职
· 惨剧! 华人剑桥女博士饿死家中
· 心脏决定寿命,建议中老年人别太
· 明豪清明节专题:清明节的思念!
· 天使、航母与蜥蜴人?布兰登2026
· 每天喝两到三杯咖啡可能降低患失
· 年度灵媒揭密 灵魂、来世与2026
· 古人说“五树进宅,人穷家败”,哪
【史海钩沉】
· 赵紫阳的五大秘书及其命运
· 女知青零下40度生子 为何所有人
· 文革中红卫兵破四旧时毁坏了中国
· 【揭秘】中纪委书记吴官正之子被
· 【解析】红卫兵的派系是怎么形成
· 王朝更替早已注定?“5大惊人巧合
· 蒋介石去世后,留下3600多万美元
· 人类首次登月!
· 台湾电信大亨孙道存风流毁家业!
· 习军中亲信苗华 到底犯了哪些事
【娱乐八卦】
· 新闻人间:当AI天才少年也是说唱
· 李雨桐泄露薛之谦手机号身份证号
· 张敬轩从“港独”摇身变“国安导师”
· 被封杀的“池子们”环大陆巡演
· 張家辉拍电影《扫毒》吻戏遇泰国
· 从张国荣逝世23周年想起
· 张柏芝老妈戴莎莉比女儿更会玩!
· 首富郭台铭曾砸4000万别墅追刘嘉
· 福原爱(37岁)近日公开了她的再
· 王奎荣慈悲与智慧兼备!
【养生保健】
· 无论你活得多健康,寿命天注定?
· 你的胆固醇水平健康吗?
· 燕麦有多健康?
· 2026最新“长寿公式”出炉:近6万
· 吃很重要:这些食物可能降低患癌
· 无论你活得多健康,寿命天注定?
· 每天喝两到三杯咖啡可能降低患失
· 北京协和医学博士冯唐宣称:如果
· 日本的平均(1)睡眠7小时42分
· 牛油果有多健康?
【台海风云】
· 台岛民调:22%台湾人愿“和平统一
· 两面人:郑丽文!
· 台湾军购三度协商仍陷分歧 美在
· 台媒民调:43%认为习郑会有助两
· 中东战事耗美军弹药库存 美前官
· 中国官媒:解放军军舰曾与驶入台
· 朱东海:攻心铸基 内外协同
· 【深度】日本如何面对中国的复兴
· 【深度】特朗普对委内瑞拉的突袭
【情感婚姻】
· 英国王室染绿,比较三代王子教育
· 一个女人有这3种表现,往往说明
· 一个很脏但又很现实的男女关系潜
· 歌曲: 下定决心忘记你
· 冬季恋歌 (Winter Love Song)
· 克林顿丑闻里的莱温斯基久违亮相
· 江浙顶级有钱人的“杀猪盘”引发巨
· 【原创首发】歌曲:错把激情当爱
· 【原创首发】歌曲:再见!我的爱
· 【原创】歌曲名:在东京等你!
【世界艺术】
· 在古代,书法地位远比国画高
· 国画中“四君子”的寓意
· 八大山人画石,画的从来不是石的
· 400年前,明朝《清明上河图》弹
【文化长廊】
· 揭秘“百代画圣”吴道子为何没有留
· 【一代宗师】林风眠:我绝不自杀
· 明豪:最亮的一颗星星
· 日本东京等地樱花季的浪漫美景
· 莫言为谁说话?
· 朱东海:雪
· 【完整全高清图珍藏版】黄庭坚书
· 明清之争:美与丑的审视
【科技频道】
· DeepSeek越强,开源生态越繁荣,
· 北京收紧对“中国基因”企业监管
· 库克15年:在科技膨胀时代坚守“
· 馬斯克與奧爾特曼為何反目「互撕
· 潜伏5年盗NASA导弹技术 FBI全球
· 关于白宫记者协会晚宴枪击案嫌疑
· 超百家中企研发钙钛矿电池,日企
· DeepSeek发表新模型,开源令中国
· 【深度】从经天纬地到经纬宇宙,
· 【重磅】福特與吉利祕密接觸:意
【万维首页】
· 【深度】美伊这一战,让泰国外长
· 万斯直接出手,干净利落!
· 美国共和党参议员丹恩斯计划下周
· 【一针见血】施一公再爆震撼言论
· 欧洲还能守住自己的文明吗?
· Manus的双重困境
· 美国历史上遭到过暗杀的总统
· 【深度】再致特朗普总统一封信
· 【重磅】高市早苗意识到,还是得
· 【重磅突发】《纽约邮报》公布枪
【精品论坛】
· 一场经典的“最大压力”心理战+经
· 【重磅】谁都没想到!阿联酋退出
· 中國航空公司剛剛購買了超過100
· 彻底闹掰?伊朗261名议员,联名
· 【深度】中方一句反问,让日方嗅
· 【重磅】华盛顿,你的“老一套”已
· 【重磅】与普京见面前,伊朗立下
· 又一次被伊朗戏弄,特朗普不谈了
· 【重磅】特朗普赌上性命,想要绝
· 【突发!】索马里宣布对以色列下
【特约评论】
· 日本学者谈中美峰会中习特将达成
· 日本前首相鸠山由纪夫:美国才是
· 【重磅】高市明牌了,要以全国之
· 看到俄接待人员,阿拉格齐底气十
· 【深度】两架专机先后降落北京,
· 美国78岁退休病毒学家David More
· 中國壓力下,巴拉圭和台灣的友情
· FBI警告:中国黑客一旦离开本国
· 川普打伊朗 3大盘算
· 两名中国公民被控试图在美国开发
存档目录
2026-05-01 - 2026-05-02
2026-04-01 - 2026-04-30
2026-03-01 - 2026-03-31
2026-02-01 - 2026-02-28
2026-01-01 - 2026-01-31
2025-12-10 - 2025-12-31
 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.