万维读者网 -- 全球华人的精神家园

广告服务

联系我们

关于万维

首　页

新　闻

视　频

博　客

论　坛

分类广告

购　物




舒畅的博客
天地悠悠，人生朝露；去伪存真，乐在其中。
		https://blog.creaders.net/u/35245/ > 复制 > 收藏本页

网络日志正文

		舒畅：人工智能竞争的方向和趋势	2025-12-02 09:19:11

舒畅：人工智能竞争的方向和趋势

今天在网上看到一段视频，显示当前中美人工智能竞赛的新一轮博弈。最近国内也有多家媒体报道 DeepSeek 发布的 V3.2 / V3.2-Special 版本，并宣称该版本在若干公开的推理与 agent 基准测试中领先或与顶级闭源模型（如 GPT-5、Gemini 3.0 Pro）处于可比水平。部分报道还指出，DeepSeek-V3.2-Special 在一些数学与编程竞赛相关题型上达到了所谓“金牌级”表现，并强调这些成绩并非针对竞赛做的专门微调。与此同时，路透等国际媒体也关注到 DeepSeek 在国内的热度、生态扩张与合规适配等问题，但其报道语气更为谨慎，强调需要独立验证与监管背景的考量。

我们该如何看这些“惊人战绩”——先说结论

有报道：确实存在国内媒体引用 DeepSeek 官方技术报告，报道该团队公布的各项基准成绩与模型页面（ModelScope 等）。这说明这些成果是公开宣称且可检索的，不是凭空捏造。
但需区分措辞与含义：媒体所说的“拿下 IMO/CMO/ICPC/IOI 金牌”通常是用来形容模型在对应题目或题组上达到与人类金牌选手同等或相近的水平，而并非竞赛官方把 AI 列为参赛主体并授予正式金牌。换言之，报道反映的是“达到金牌水准”，但并不能得出了这样的结论就是因为他拿到了多个国际奥林匹克数学竞赛的金牌他是各个方面就超过了 gpt five和Gemin 3.
可重复验证性尚待加强：事实上目前对这些基准分数的独立复现主要依赖官方报告与少数第三方测评（社区复现或技术博客）。学术界经过同行评审的、广泛认可的独立验证尚未形成一致结论。因此，把这些报道当作“高度可疑的谣言”也不合适，但把它们当作“完全确凿、无需再证”的事实也为时尚早。

我个人认为，要成为业内领先的 AI，必须具备三个核心要素：
（一）庞大且高质量的数据；（二）强大的算力；（三）创新而高水平的算法。

从现实条件看，中国在数据规模与丰富度上具有天然优势：十四亿人口、广泛的数字化应用与多样化业务场景，提供了丰富的训练素材与细分场景数据；在算力方面，短期内赶超全球顶尖硬件供应链仍有难度（高端 GPU 仍以少数厂商为主导），因此若 DeepSeek 真能在能力上接近或超越西方竞争对手，最可能的解释是算法创新 + 数据优势发挥了关键作用，但中国的大型数据库可能更多的是社会监控方面的而并非自然科研方面的。但不可否认由于人工智能这到底是怎样利用这个数据库去进行研究的这是一个非常深刻的而且到目前为止人们还没有搞清楚的问题即便是如此如果有更聪明的算法和更针对性的训练，也许是可以弥补客观存在的硬件差距。

另一个值得注意的现象是：AI 已经开始进入数学研究的实际工作流。我最近也看到了有关著名数学家陶哲轩（Terence Tao）及其团队尝试用先进 AI 工具（如基于大型模型的数学辅助系统、AlphaEvolve 等）来辅助研究的报道。这类工具在实践中表现出能够：

帮助探索新的数学结构与模式；
生成候选证明或证明草稿；
协助形式化证明与局部验证；
在某些情况下显著加速原先耗时很长的推导工作。

但需要强调：目前的共识是 AI 是辅助工具而非独立发明者。AI 生成的证明草稿或洞见，仍需由人类专家进行严格审查、补充与形式化，才能成为数学界认可的“最终证明”。

短视频与媒体头条常把技术进展放大或用激烈措辞吸引眼球，这会造成公众判断的偏差。面对 DeepSeek 或任何新模型的“惊人成绩”，我们应当采取三步走的判断方式：

查证原始报告与模型页面，确认是否有公开技术文档与评测方法；
关注是否有独立第三方复现或学术界同行评审；
区分“达到金牌水平”与“竞赛官方授予金牌”两种不同语义，避免混淆。

尽管需要谨慎，但不可否认的是——不论是 DeepSeek 还是 Gemini，从整体趋势看，人工智能被更广泛地使用于医学研究物理化学数学方方面面并且进一步的快速的推动科学进展,已经成为必然的趋势,中美两国之间的这种新模式直销的竞争必然会越来越激烈，而创新也越快速，最终受益的是全社会的科研效率与知识发现能力。

浏览(786)