DeepSeek越强，开源生态越繁荣，跑在国产芯片上的应用越多！-明豪-万维博客-万维读者网（电脑版）

设万维读者为首页

万维读者网 -- 全球华人的精神家园

广告服务

联系我们

关于万维

首　页

新　闻

视　频

博　客

论　坛

分类广告

购　物




明豪的博客
智慧的灯塔，照亮前行的路。思想在这里交汇，真理如泉涌！
		https://blog.creaders.net/u/37201/ > 复制 > 收藏本页

网络日志正文

		DeepSeek越强，开源生态越繁荣，跑在国产芯片上的应用越多！	2026-05-02 06:36:00

所以现在的情况是DeepSeek越强，开源生态越繁荣，跑在国产芯片上的应用越多，英伟达CUDA的锁定效应就越弱。CUDA锁定效应越弱，国产芯片越有机会迭代。国产芯片越迭代，DeepSeek下一版就能在更强的国产算力上跑。这是第一个正反馈。

DeepSeek每发布一个新模型，华尔街就重估一次“英伟达未来还有没有暴利”。股价一哆嗦，幻方量化靠着做空或波动套利，一把收割。收割来的钱不需要分给股东，不需要买游艇，反手砸进DeepSeek的下一轮研发。这又是一个正反馈。

国家看到了“打掉美国最后一个技术壁垒”的战略价值，于是默许幻方在金融市场上那些野蛮的套利动作。政策包容换来国产半导体生态的加速度，加速度换来更低的卡脖子风险。三方各取所需，DeepSeek在中间既当发动机又当方向盘。

所以，DeepSeek不是什么民族英雄式的单点突破。它是一台算法效率驱动的三层正反馈机器。底层是思维链和推理时计算改变了模型的“代谢率”，中层是开源和低价抽干了闭源巨头的血，外层是资本市场的负反馈为母体持续供血。这三层咬合在一起，比任何单一技术突破或者商业策略都要命。

好了，前面的你都看懂了以后就能理解为什么Deepseek是个核弹级产品...它从算法、生态和商业三个层面彻底瓦解了美国为维持AI霸权所构筑的三大壁垒 - 算力壁垒、生态壁垒和成本壁垒。

DeepSeek最大的冲击，是挑战了“AI性能由高端算力数量决定”的信条。DeepSeek R1模型仅用数百万美元成本，就实现了媲美OpenAI的GPT-5的推理能力。

当西方巨头在堆参数时，DeepSeek凭借混合专家模型（MoE）和DSA稀疏注意力等架构突破，大幅降低了对显存和算力的需求。这并非简单的“以小博大”，而是证明通过更高效的算法和工程优化，同样可以缩短与巨头成本之间的巨大鸿沟。这也解释了为何其V4-Flash模型的API调用价格，仅为GPT-5.5的百分之一。

DeepSeek的真正战略价值，在于它主动完成了最艰难、也最危险的一步 - “去英伟达化”。为了实现从英伟达CUDA生态向华为昇腾CANN架构的底层迁移，DeepSeek-V4不惜硬生生推迟了半年才发布。得益于这种坚持，其V4系列模型在发布首日（Day 0），就完成了对华为昇腾、寒武纪、摩尔线程等8家国产芯片的全量适配。

在所有冲击中，这一击最为釜底抽薪。美国政策制定者原本希望，通过对华禁售Nvidia高性能芯片，从根本上锁死中国的AI能力。DeepSeek的成功，让这一战略遭遇了全面失败。

2025年以后AI大模型有了一个巨大的进步，就是推理能力（thinking mode），aka思维链（CoT）和推理时计算。

从LLM的本质出发，理解思维链（CoT）和推理时计算的本质，这里的关键在于看清一个底层矛盾：Transformer的固定深度与复杂问题所需的多步推理之间的不匹配。

Transformer每一层都做一次非线性变换，整个模型有固定层数 LL（如64层）。

自回归生成时，每产生一个token，模型只做一次深度为 LL 的前向传播，且不能回头。

这意味着：对于任何需要超过 LL 步逻辑链才能解决的问题，标准LLM只能“猜”，因为它没有机制在生成下一个词之前打草稿、做中间计算。

思维链的本质：用“时间”换取“深度”，也就是说思维链强制模型将推理过程显式地展开成多个token。

把原本需要单次深度 DD 的计算，拆解为 mm 个深度 LL 的步骤，并通过上下文传递中间状态。整体有效计算深度从 LL 变为 m×Lm×L（因为每一步都基于上一步的输出重新进Transformer）。

但思维链仍是一维的线性链，一步错步步错。推理时计算更进一步可以进行并行扩展（Self-Consistency）和串行扩展+搜索（Tree-of-Thoughts）。

于是结果就变成了: 推理质量≈模型固有能力+f(推理计算量)

其中 f 在初期近似于对数线性增长，直到边际收益递减。推理时计算就是把传统Scaling Law中的 “训练计算量” 部分转移到 “推理计算量” 上，用更灵活的推理时间换取模型体积或训练成本的降低。

思维链和推理时计算，本质上是用算法的时空复杂度（O(步骤数)）来补偿模型架构的表达深度限制（O(层数)）。它们把LLM从“固定深度的直觉机器”变成了“可编程的符号计算引擎” - 虽然底层仍是神经网络，但行为上已经开始逼近通用图灵机。

思维链和推理时计算扩展了LLM的表达能力（从短路输出到多步展开），但没有改变其统计本质（无意图、无因果、无自我、无价值、无目标创造）。但人的思考是第一人称的、有意识的、价值驱动的、主动构建的过程；LLM的“推理”是第三人称的、盲目的、模式驱动的、被动响应的过程。两者之间存在不可逾越的本质鸿沟，CoT只是让鸿沟看起来窄了一点。

有了这个锚点你就能理解，模型的能力主要来自参数量、数据量和计算量的统一扩展，这就相当于你的价值观有了客观可观事实根基，而不是纯粹的跟风。

从这点来客观比较中美大模型的话：

参数量：美国模型(OpenAI, Anthropic之类)占优（GPT-5据称已达12.8万亿），中国模型在追赶。

数据量：公开信息较少，但是中国的数据量天然比美国多得多。

训练算力：美国暂时占优，中国受制于芯片禁令，国产算力替代是关键。

美国头部模型更像是在“豪赌”规模（Scaling Law），坚信“大力出奇迹”，中国模型则更像是追求“事半功倍”的效率（Efficiency Law）。

这样，你在看中美AI竞赛的时候多少才能看点门道，而不是纯烧Token凑热闹

理解LLM算法本质和Transformer架构是接触AI的“锚点”，因为它为一切上层实践（提示词工程、Agent开发、RAG、微调等）提供了统一的因果坐标系。

没有这个锚点，你很容易在现象层面迷失 - 要么对模型寄予不切实际的期望，要么在它出错时陷入玄学式的归因（“模型太笨”“提示词魔法不够”）。

然后卖课的就盯上你了。

从LLM算法本质来看，这段话切中了当前大模型应用中最容易被忽视的核心矛盾：模型的生成能力不等于人类的思考能力，而模型的输出质量根本上取决于输入信号的结构化程度。

LLM的本质是一个自回归概率模型，给定上文，预测下一个token的概率分布。它的每次生成都依赖于前面的上下文，而上下文完全由你提供。这意味着：