【深度】Anthropic指控深度求索等中国公司不当获取其数据-明豪-万维博客-万维读者网（电脑版）

深度求索是三家被指控利用Anthropic人工智能系统数据训练自身模型的中国初创企业之一，该过程被称为知识蒸馏。CFOTO/FUTURE PUBLISHING, VIA GETTY IMAGES

旧金山人工智能初创企业Anthropic指控三家中国公司通过不当手段大量抓取其人工智能技术数据，以加速自研系统开发。

Anthropic周一在一篇博客文章中表示，中国三家知名初创企业深度求索、月之暗面和稀宇科技利用约2.4万个虚假账号，与Anthropic的Claude聊天机器人产生了超过1600万次对话，这些数据可用于训练三家公司自己的聊天机器人。

利用一个人工智能系统的数据训练另一个系统的过程被称为知识蒸馏，在人工智能领域较为常见。但Anthropic的服务条款禁止任何人以秘密方式抓取数据用于蒸馏，同时不允许其技术在中国境内使用。

Anthropic的主要竞争对手OpenAI也指控中国公司从其聊天机器人ChatGPT中大量提取数据用于类似目的。

在上周致美国国会众议院中国问题特设委员会的一份备忘录中，OpenAI称，深度求索等中国初创企业正采用新型的“混淆式”蒸馏手段，“持续搭便车”使用OpenAI及其他美国公司开发的技术。

与OpenAI一样，Anthropic称此类行为构成国家安全风险，并表示这可能让中国得以开发用于制造生物武器或大规模监控工具的人工智能技术。Anthropic已为其技术设置安全防护机制，防止被用于此类用途，但这些防护措施在蒸馏过程中可能被剥离。

Anthropic呼吁政府官员及其他人工智能企业共同阻止中国公司对美国模型进行蒸馏。

“此类行动正变得愈发激烈且手段更趋复杂，”Anthropic在文章中表示，“可供采取行动的时间窗口正迅速缩小，且威胁已超出单一企业或地区范围。应对这一问题，需要行业参与者、政策制定者及全球人工智能界迅速采取协同行动。”

深度求索、月之暗面、稀宇科技三家公司暂未回应置评请求。

此文发布之际，Anthropic正与美国国防部就五角大楼对其技术的使用陷入争执。五角大楼已批准将Anthropic的技术用于涉密任务，但因该初创公司不希望其技术被应用于自主武器或国内监控领域，五角大楼威胁要终止双方的合作关系。

去年，深度求索推出了性能与全球市场同类产品相当的人工智能技术，令硅谷科技企业震惊，并引发美国金融市场剧烈震荡。

在此之前，硅谷的普遍观点是：没有数十亿美元的专用计算机芯片，就无法打造出最强大的人工智能系统。但深度求索表示，打造其技术所耗费的资源远少于此。

与美国企业一样，深度求索、月之暗面、稀宇科技均通过从互联网搜集的计算机代码和数据构建人工智能技术。全球人工智能企业都高度依赖开源模式——即免费共享支撑其技术的代码，并复用他人分享的代码。它们认为这是加速技术发展的一种途径。

人工智能企业还需要海量网络数据来训练系统。顶尖人工智能系统通过分析互联网上几乎所有文本习得相关能力。

知识蒸馏常被用于训练新系统，开源技术通常允许这一做法。但如果一家公司从专有技术中提取数据，则可能存在法律问题。

目前估值达3800亿美元的Anthropic正面临多起诉讼，它被控非法使用受版权保护的网络数据训练系统。去年9月，在一桩具有里程碑意义的法律和解中，法官裁定Anthropic非法下载并存储数以百万计受版权保护的书籍，该公司同意向一批作者和出版商支付15亿美元赔偿金。这是美国版权案史上金额最高的赔偿。

OpenAI及其他人工智能企业也面临类似诉讼，其中包括《纽约时报》对OpenAI及其合作伙伴微软提起的诉讼。该诉讼称，《纽约时报》数以百万计的文章被用于训练自动聊天机器人，而这些机器人如今已成为一个与时报构成竞争关系的可靠信息来源。OpenAI和微软均否认相关指控。