DeepSeek偷了OpenAI的数据? OpenAI称已掌握侵犯其知识产权证据 雷歌 2025年1月29日
DeepSeek横空出世带来的冲击还在继续发酵。 与充斥简中圈那种惯有的“厉害了我的国”的夸张论调不同,美国AI大公司都在紧锣密鼓地分析DeepSeek的低成本模式到底怎么做到的,也在争论其实际意义和行业影响。 今天阿里巴巴也发布了AI大模型的新版本,即通义千问旗舰版模型Qwen2.5-Max,称该模型超越了DeepSeek于去年12月底发现的V3版模型。这有明显的蹭热度嫌疑。 我在昨天的文章中重点分析了DeepSeek使用“数据蒸馏”方法降低训练成本,给DeepSeek最终产品带来的Bug,就是产品本质上还是个山寨版。而今天许多专业媒体也在纷纷聚焦DeepSeek的“数据蒸馏”。 今天,川普任命的AI沙皇戴维·萨克斯(David Sacks)在接受FoxNews采访时表示, DeepSeek违规使用了OpenAI的内容训练自己的新模型。目前,OpenAI和微软正在调查此事。而OpenAI则向《金融时报》表示,他们已经掌握了DeepSeek违规使用OpenAI数据的证据。 萨克斯表示,DeepSeek使用了一种名为蒸馏的过程,就是一个新的人工智能模型向一个现有模型提出数百万个问题,以便学习其知识并模仿其推理过程。 “蒸馏”是一种常见的开发手段,开发者通过从成熟的大模型中提取数据来训练自己的 AI 模型。这种技术能够以远低于原创模型(如 OpenAI 的ChatGPT)的训练成本,高效地训练出新模型。蒸馏技术已经被AI开发者使用多年,但从未像DeepSeek那样取得如此巨大的成功。 “有充分的证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提取知识,” 萨克斯是硅谷资深风险投资家,他说:“我认为OpenAI对此不太高兴。” 而彭博社和华尔街日报等多家财经专业媒体今天也报道称,OpenAI 和微软正在调查 DeepSeek 是否通过 OpenAI 的 API 将 OpenAI 的 AI 模型整合到 DeepSeek 自有的模型中。消息人士称,微软的安全研究人员在 2024 年底发现,大量数据通过 OpenAI 开发者账户被导出,而这些账户被认为与 DeepSeek 有关联。 OpenAI 则向《金融时报》表示,他们发现了 DeepSeek 违规使用“蒸馏”技术的证据。 按照用户使用协议,开发者可以通过 OpenAI 的 API 接口将其 AI 技术整合到自己的应用程序中,但利用输出数据来构建竞争模型则违反了 OpenAI 的服务条款。 OpenAI 在一份声明中表示:“我们深知,中国等国家的公司以及其他一些企业一直在试图蒸馏美国领先 AI 公司的模型。作为 AI 领域的领军者,我们采取了反制措施来保护我们的知识产权,这包括在发布模型时谨慎选择哪些前沿功能可以包含在内。我们相信,未来与美国政府密切合作,以防止对手和竞争对手窃取美国技术,保护最先进的模型,是至关重要的。” DeepSeek在蒸馏技术上的成功在硅谷引发了广泛担忧,大家担心那些花费数以千万甚至数以亿计美元开发尖端人工智能的公司,不会比竞争对手有多少优势。 萨克斯表示,他认为美国人工智能公司将采取措施,试图保护他们的模型不被蒸馏。他说:“这肯定会减缓这些山寨模型的发展速度,” DeepSeek是一家中国AI开发公司,它于1月20日发布了自己的最新AI语言模型DeepSeek-R1。经测试其性能可以与OpenAI两年前推出的ChatGPT4相媲美,而其训练成本则远低于美国同类AI大模型。 DeepSeek称,该公司于12月底发布的DeepSeek-V3模型,仅使用了2048块英伟达H800GPU芯片,训练55天就成型,整个训练费用不到558万美元。这一消息极大震撼了美国硅谷和华尔街,由此掀起了一场关注AI成本革命的风暴。 DeepSeek于今年1月20日发布的最新版本R1与此前的几个模型版本均为开源版本。DeepSeek同时发布了R1模型背后的“权重”(数值参数),供公众免费使用、下载和修改。但并没有发布R1的训练数据,这导致一些人认为其模型也并非完全“开源”。另外,DeepSeek也未提及R1的训练费用 。 我在昨天的文章中已经分析了低成本AI大模型DeepSeek的横空出世对全球AI发展的可能影响,得出了三个结论: 1)如果DeepSeek的低成本模式能够直接在其它AI平台搭建中复制(这一点目前存疑,可能非常难,尚有待验证),将直接引发AI领域的一场成本革命,极大降低AI基础平台建设和应用模型训练的资金门槛,吸引无数中小公司进入这一领域,使AI开发呈现百花齐放而不只是几家巨头公司垄断的全新局面,将极大提升AI基础研究和应用领域的扩散速度。 2)如果DeepSeek的低成本模式无法简单复制,也会给AI大模型建设带来方法论意义上的冲击和启发,将推动各大AI公司借鉴DeepSeek在架构设计和算法优化上的创新,进一步探索降低AI大模型建设成本的多样化路径。 3)目前DeepSeek显示的成果,尚不足以颠覆美国引领全球AI研发的总体格局。由于DeepSeek的低成本快速训练模式除了其在架构设计和算法优化上的创新外,也离不开其“数据蒸馏”模式。而“数据蒸馏”模式决定了DeepSeek最后推出的产品本质上还是对原创模型的模仿,虽然低成本,但依然是山寨版。“数据蒸馏”方法的应用场景只局限在复制原创模型,也就是模仿范围。而所有的AI平台原创模型从目前看依然离不开大算力、大数据和高投入。因此,AI开发的总体格局和基本模式没有改变。 我们期待DeepSeek带来的方法论启发,能在未来的AI开发中获得进一步技术突破,能在原创AI大模型建设中大显身手。 同时也可以预见,DeepSeek在“数据蒸馏”中可能存在的违规操作,必将引发美国原创AI平台的开发公司和美国政府进一步收紧防范措施。在中美竞争乃至对抗的大格局下,这将成为必然。
更多精彩内容请看: 1)万维博客“雷歌视角”: https://blog.creaders.net/uindex.php 2)油管频道“雷歌视角”: https://www.youtube.com/channel/UClfm_D5GrSVn59znfs8JD1g 欢迎关注“雷歌视角”,帮你挖掘新闻背后的新闻。 欢迎订阅、转发和点赞。谢谢!
|