指责中国公司窃取技术的Anthropic,却是北美最大“偷子”?

  文|超聚焦

  一场"贼喊捉贼"的年度大戏,正在中美 AI 竞赛的舞台上拉开帷幕。

  2 月 23 日,一则由 TechCrunch 爆出的新闻,瞬间点燃了全球 AI 领域的舆论场。

  报道称,以"AI 安全"为金字招牌的明星创业公司 Anthropic,公开指控三家国内顶尖 AI 大模型公司——DeepSeek、Moonshot AI 和 MiniMax,通过系统性的欺诈手段,利用其旗下的 Claude 模型来训练和优化自己的模型。

  根据 Anthropic 公布的数据,这次"工业级"的窃取行为规模惊人:三家公司共创建了超过 2.4 万个虚假账户,与 Claude 模型进行了约 1600 万次交互。Anthropic 声称,这些行为旨在通过"蒸馏",系统性地提取 Claude 的核心能力,包括推理、编程和工具使用等,从而"抄近道"提升自身模型的性能。

  这番控诉精准踩中了中美 AI 博弈的痛点。Anthropic 帮自己贴上了"知识产权受害者"的标签,顺便在舆论场上给中国对手扣了一顶"抄袭者"的帽子。

  讽刺的是,科技圈的记忆还没退化到那种程度。就在去年,这位自诩为"行业标杆"的控告者,才刚刚因为非法利用盗版书籍训练模型,掏出了 15 亿美元的"买路钱"来平息版权官司。Anthropic 的这番举动,多少有点"洗白之后反手举报前同行"的意思。

  事件发酵后,特斯拉 CEO 埃隆·马斯克旋即在社交平台X上发出了那句经典的"灵魂拷问":"他们(中国公司)怎么敢窃取 Anthropic 从人类程序员那里窃取的东西?",并表示"我们(xAI)不像 Anthropic 那样自鸣得意、道貌岸然、虚伪做作"。

  当一个曾经的"大盗"开始指责别人"偷窃"时,我们不禁要问:这究竟是一场维护知识产权的正义之举,还是在激烈竞争的焦虑之下,一个"前科犯"试图通过攻击对手来掩盖自身"原罪"的公关策略?

  Anthropic 这个硅谷的 AI 宠儿,究竟是技术创新的捍卫者,还是北美科技圈最大的"偷子"?

  "捉贼"的 Anthropic 忘了自己怎么发的家?

  在深入探讨 Anthropic 的"黑历史"之前,我们有必要先厘清这次指控的核心"蒸馏"。

  在 AI 领域,"蒸馏"是一种常见的模型压缩和知识迁移技术。简单来说,就是用一个更大、更强的"教师模型"的输出来训练一个更小、更轻量的"学生模型"。

  通过模仿"教师模型"对大量问题的解答,"学生模型"可以学习到其强大的逻辑推理和知识组织能力,从而在性能上实现快速追赶。

  这种做法是否构成"窃取"?这是一个在法律和伦理上都存在巨大争议的灰色地带。

  把时间拨回一年多前的 2025 年初,当 DeepSeek 凭借极低研发成本的 R1 模型横扫全球、让硅谷陷入恐慌时,OpenAI 就曾扮演过今天 Anthropic 的角色。当时,OpenAI 同样声称抓到了 DeepSeek"蒸馏"其先进模型的证据,引发了一场满城风雨的口水战。

  但从严苛的技术角度看,这并非直接复制模型的代码或权重参数。它更像是让一个学徒观摩大师作画,通过模仿学习其风格与技巧,而非直接偷走画作。许多开源模型和研究项目都在探索模型蒸馏,以期用更低的成本实现更高的性能。

  然而,从商业角度看,大型模型公司无一例外地在用户服务条款中明令禁止此类行为。它们投入了数十亿乃至上百亿美元的研发成本和算力资源,模型的输出(或 API 调用)被视为其核心商业资产。

  允许竞争对手无限制地"蒸馏"其模型,无异于默许对方用极低的成本复制自己的核心竞争力,这显然是不可接受的。

  因此,Anthropic 的指控,在"违反服务条款"这一点上是站得住脚的。但将其上升到"窃取技术"甚至"商业间谍"的高度,则有将商业纠纷扩大化的嫌疑。

  毕竟,如果 API 是公开可用的,那么利用其输出来进行研究或训练,其行为定性远比直接破解服务器、窃取源代码要复杂得多。

  这场争论的本质,是 AI 时代知识边界的重新定义:一个模型的输出,究竟是受保护的知识产权,还是一种可以被学习和借鉴的公开知识?在这个问题没有明确答案之前,Anthropic 的指控虽然声量巨大,但其法理和道义基础,并非坚不可摧。

  更何况,这位"原告"自己,在攫取知识用于模型训练时,所采用的手段要远比"蒸馏"粗暴和直接得多。

  15 亿美元和解金撕开 AI"原罪"的遮羞布

  在高举道德大棒敲打同行之前,这位自封的"AI 版权警察",其实刚刚为自己的"盗窃行为"交完一笔惊天动地的"罚款"。

  时间拨回到 2025 年,彼时 Anthropic 正深陷一场名为"Bartzv.Anthropic"法律危机。这场诉讼由多位美国作家发起,他们指控 Anthropic 在训练其 Claude 系列模型时,非法使用了数百万本受版权保护的书籍。

  这些书籍并非来自合法购买的渠道,而是直接从著名的盗版网站,如 LibGen 和 Sci-Hub 的镜像站 PiLiMi 等,大规模下载而来。

  这是 AI 行业一直以来秘而不宣的"秘密",为了获得高质量、结构化的训练语料,许多公司都将目光投向了这些汇集了人类几乎所有出版知识的盗版书库。

  在法庭上,Anthropic 曾试图用"合理使用"原则为自己辩护。他们辩称,将书籍文本用于训练 AI 模型,是一种"转换性使用",其目的不是为了替代书籍本身,而是为了提取统计模式以构建语言能力,因此不构成侵权。

  然而,主审此案的法官并没有完全采纳这一说法。法院的裁决极具开创性,它在 AI 训练数据的合法性上划下了一道关键的红线。

  判决认为,如果数据是合法获取的(如购买并扫描书籍),那么将其用于 AI 训练或许可以被视为合理使用;但是,从一开始就通过非法手段(即从盗版网站下载)获取数据,这一行为本身就构成了版权侵权,后续的任何使用都无法再以"合理使用"来豁免。

  简而言之,法院的裁决明确了:AI 的"炼金术"再神奇,也不能建立在盗窃而来的原材料之上。

  这一判决直接判负 Anthropic。据估算,如果官司继续打下去,所有侵权指控完全成立,按照每部作品最高 15 万美元的法定赔偿金计算,其面临的潜在罚金可能是一个天文数字。为了避免公司破产的命运,Anthropic 最终选择了妥协。

  2025 年 9 月,双方达成了和解协议。Anthropic 同意向作家和出版商支付一笔 15 亿美元的和解金。这笔巨款覆盖了约 50 万部作品,平均每本书的"赎身价"约为 3000 美元。作为和解的一部分,Anthropic 还被要求销毁所有从盗版渠道获取的训练数据。

  这起案件,不仅是 AI 领域有史以来金额最大的版权和解案,也成为了一个标志性事件。它将 Anthropic 这家一直以"AI 安全伦理"领军者自居的公司,永远地钉在了"窃取数据"的耻辱柱上。他们为了打造 Claude 的智慧,盗版了整个图书馆。

  "百步笑五十步"的闹剧

  一边擦着偷吃版权红利的嘴,一边义愤填膺地指责别人"白嫖",这场硅谷大戏的荒诞感已经拉满。

  当 Anthropic 指控中国公司"窃取"其模型能力时,它似乎忘记了,Claude 本身的能力,就有相当一部分是建立在"窃取"来的书籍知识之上的。这让 Anthropic 的指控,显得格外滑稽和虚伪。

  马斯克的嘲讽虽然刻薄,却精准地抓住了事件的核心矛盾:一个靠"偷"起家的公司,如今摇身一变成了知识产权的捍卫者,这本身就是一出绝妙的黑色幽默。

  著名程序员、科技博主 GergelyOrosz 也发表了类似的看法:"抱歉,但 Anthropic 不能两面讨好……别忘了 Claude 是如何训练出来的?用的是受版权保护的书籍,直到被起诉后才向版权方付费。"

  在程序员社区和网络论坛上,类似的质疑声此起彼伏。一位 Reddit 用户直言不讳:"Anthropic 盗版了数百万本书籍,现在却大谈责任与合规……如果你真的相信他们那套说辞,未免也太天真了。"

  面对排山倒海的舆论反噬,Anthropic 的辩解显得苍白无力。他们声称,其训练数据中也包含了部分合法来源,并且已经通过支付 15 亿美元的和解金"解决"了历史问题。

  这套逻辑显然无法服众,支付罚款或和解金,本质上是对过往侵权行为的一种补偿,它或许可以了结法律纠纷,却无法抹去行为本身的不道德性。

  这就像一个小偷被抓后,退还了赃物并缴纳了罚款,然后转头就义愤填膺地指责别人偷了他的东西,无论从哪个角度看,都缺乏说服力。

  更深层次的问题在于,Anthropic 支付的 15 亿美元,究竟是真心悔过的"赔偿",还是迫于无奈支付的"赎罪券",抑或是将其视为获取海量高质量数据所必须付出的"成本"?从其如今高高在上的道德姿态来看,后者的可能性似乎更大。

  他们似乎认为,一旦花钱"摆平"了过去,自己就获得了道德上的新生,可以站在制高点上对他人进行审判。

  然而,互联网是有记忆的。

  不过,将 Anthropic 的案例放大到整个 AI 行业,我们会发现一个更为普遍的困境:几乎所有头部大模型公司的崛起,都离不开对海量互联网数据的"野蛮"抓取,其中必然包含了大量受版权保护的内容,这几乎是整个行业的"原罪"。

  从 OpenAI 到 Google,再到 Anthropic,它们的模型之所以能够展现出惊人的智能,正是因为它们"阅读"了人类有史以来几乎所有的公开文本和图像。在这个过程中,是否获得了每一份资料的授权,是一个被刻意模糊处理的问题。

  但 Anthropic 的特殊之处,仅仅在于它做得太过火,直接端掉了整个盗版图书馆,并且被抓了个正着,最终付出了沉重的代价。

  从这个角度看,Anthropic 对国内公司的指控,暴露了 AI 巨头们一种危险的双重标准:即"我可以用全世界的数据来训练我的模型,但你不能用我的模型输出来训练你的模型。"

  这背后,既有商业利益的考量,也有地缘政治的影子。

  在商业上,AI 大模型公司正试图构建一种全新的商业模式闭环。它们通过提供 API 服务,将模型的"智能"作为一种可计价的商品出售。

  如果允许竞争对手通过"蒸馏"来低成本复制这种智能,那么整个商业模式的根基都会被动摇。因此,它们必须将"蒸馏"定义为一种非法行为,并动用一切舆论和法律工具来打击它。

  而在地缘政治层面,Anthropic 的指控完美地契合了老美试图延缓国内 AI 技术发展的战略意图。通过将商业竞争上升为"技术盗窃",可以为进一步的技术封锁和出口管制制造舆论基础。

  这使得 Anthropic 的商业行为,带上了一层浓厚的"政治正确"色彩,既能打击竞争对手,又能迎合国内的政治气候。

  然而,这种建立在双重标准之上的指控,终将反噬自身。当一个行业的领导者本身就是通过打破规则、游走在法律边缘而获得优势时,它就丧失了为整个行业制定规则的合法性。

  对于 Anthropic 来说,在教育别人如何"负责任"之前,或许应该先向公众更坦诚地解释一下,自己正义凛然的"捉贼人"面孔下,其实曾是北美最大的 AI"偷子"。