DeepSeek V4背后,梁文锋的转身

「核心提示」

  国产架构与外部融资同时启动,DeepSeek 的惊险一跃。

  作者 | 张经纬

  编辑 | 邢昀

  2026 年 4 月,DeepSeek 几乎同时公布了两条大新闻:一是公司启动首次外部融资,目标估值从 100 亿美元迅速抬升至 200 亿到 300 亿美元,腾讯、阿里正洽谈入局;二是其新一代旗舰模型 V4 发布,全面适配华为昇腾 950PR 芯片,从英伟达的 CUDA 生态转向华为的 CANN 框架。

  一内一外两种变化,背后是 DeepSeek 的全面战略转向,也是 AI 公司竞争进入深水区的标志。

  那个纯靠自身的量化投资输血、以“技术理想主义”自居的 DeepSeek,正在完成自己的“成人礼”。

1、国产替代和推理跃进,V4 的新故事

  2026 年 4 月 24 日,DeepSeek V4 发布。

  这不是一次常规的模型迭代。新模型将总参数推至 1.6 万亿,首次将百万 token 上下文打成标配,并实现了百万上下文下每 token 的算力消耗仅为 V3.2 的 27%,KV 缓存占用只有 10%。

  模型输出质量上,V4 同时支持三档推理强度,并针对 Agentic Coding 做了专项优化。内部评测显示,其交付质量已接近 Claude Opus 4.6 的非思考模式。

  不过 V4 最受瞩目的,是首次在官方技术报告中,把国产芯片和英伟达 GPU 写进了同一份硬件验证清单。

  V4 适配的华为昇腾 950PR 推理芯片于 2026 年 3 月量产,单卡算力较英伟达对华特供版 H20 提升 2.87 倍。到目前为止,阿里巴巴、字节跳动、腾讯等国内科技巨头已向华为下单数十万颗昇腾芯片。

  从成本角度看,这是一次理性的商业选择。昇腾 950PR 的采购价格约为英伟达 H200 的三分之一到四分之一,绝对算力则是 H200 的一半,这意味着性价比。

  虽然和英伟达的前沿芯片相比,国产芯片有显著的算力差距。不过在低精度推理场景下,华为昇腾 950PR 的 SIMD/SIMT 新同构设计、低精度数据格式支持和自研 HBM,能展现出超越通用 GPU 的效率。不仅更便宜,而且更高效。

  现在也正好是大模型正从“训练为王”逐渐转向“推理决胜”的时代。2026 年 3 月的 GTC 大会上,黄仁勋宣布推理的拐点已经到来,需求还在不断增长。他指出过去两年 AI 计算需求激增了 1 万倍,行业重心正在从一次性、高成本的模型训练,转向持续性的推理服务。

  事实上,黄仁勋本人也曾公开表达对中国芯片的忧虑。4 月 15 日,他在彭博社播客访谈中罕见发飙,当众反驳“芯片是浓缩铀,不该出口给中国”的说法。他警告,过度限制无法阻止中国进步,反而会逼中国建立完整的自主生态。

  跳出英伟达架构是一条高风险、高收益的新路。风险在于,CANN 不是一个非常成熟的架构,第三方库支持、调试工具链仍不及 CUDA,对于个人开发者和小团队而言迁移门槛依然存在。

  但如果 V4 在华为芯片上跑出有竞争力的性能,它将是全球第一个不依赖英伟达的前沿 AI 模型,这意味着中国 AI 产业将拥有完全自主的算力底座,不再受制于华盛顿的出口管制。

  这也意味着中国的 AI 企业们会直接坐在金山上。根据 OpenRouter 的数据, 2026 年 3 月 30 日-4 月 5 日,中国 AI 模型的周调用量突破 12.96 万亿 Token,是同期美国的 4.3 倍,国产化无疑有着巨大的市场前景。

  2、向资本重新伸出的手

  不过,追求国产架构性价比的另一面,是 DeepSeek 的资金压力。

  这家一度站在中国 AI 赛道顶峰的公司,长期主要靠创始人梁文锋和背后的量化基金幻方量化支持。梁文锋直接和间接持有 DeepSeek 84.29% 的股份,拥有几乎 100% 的表决权,这让 DeepSeek 在 AI 创业公司中显得格外另类。当智谱、MiniMax、月之暗面在 2023-2024 年疯狂融资时,DeepSeek 像一个隐士般潜心研发,直至 2025 年 R1 的横空出世。

  也是在这一年,梁文锋拒绝了来自腾讯和阿里巴巴等科技巨头的合作机会,担心外部投资者会干预公司决策。而且,梁文锋本人也极少出现在公众视野中,除了几篇 AI 研究的论文。

  但他的态度不久前发生了 180 度大转弯。2026 年 4 月,DeepSeek 启动首轮外部融资,募资至少 3 亿美元,目标估值超 200 亿美元,市场传闻甚至飙至 300 亿美元以上。

  AI 正在变得越来越烧钱,也变得越来越值钱,这是全球性共识。

  OpenAI 2025 年亏损 80 亿美元,2026 年预计亏损 250 亿美元。2026 年 3 月 OpenAI 完成最新一轮融资,募集资金 1220 亿美元,投后估值 8520 亿美元。其最大竞争对手 Anthropic 于 2026 年 2 月完成 300 亿美元G轮融资,投后估值 3800 亿美元。由于年化收入从 2025 年底的 90 亿美元暴涨至 2026 年 4 月的 300 亿美元,Anthropic 在一些二级市场的隐含估值已超 1 万亿美元。

  除了算力采购,烧钱的还包括人才竞争。脉脉高聘《2026 春招人才供需报告》显示,2026 年 1 至 2 月,AI 岗位数量同比增长约 12 倍,岗位占比升至 26.23%,平均月薪超 6 万元。

  薪资上涨促进了人才流动,这给很多 AI 大厂带来了薪资压力。据媒体报道,过去一年间,字节跳动 Seed 团队有近 70 名技术人才离职,转而加入国内头部互联网企业、大模型公司及国际科技巨头。为抵御人才流失,字节跳动为 Seed 团队大规模发放专项期权,提高待遇。在字节内部,活水流动到 Seed 部门是新风向,面试流程也相比其他部门更为复杂。

  字节被报道 2025 年净利润同比下滑超过 70%,核心原因是在三、四季度加码了人工智能领域的资源投入。随后抖音副总裁李亮澄清称,净利润下降主要是优先股和期权成本变动等会计因素带来的。虽然缓解了市场上对于字节净利润下滑的担忧,但也显示出公司在人才,尤其是 AI 人才激励上的大手笔。

  AI 公司人才的频繁流动,也同时给 DeepSeek 带来了压力。

  去年底至今,DeepSeek 有多位核心员工离职。2025 年 11 月,罗福莉加入小米 MiMo 大模型团队,她曾是 DeepSeek-V2 核心开发者、被冠以“95 后天才少女”之名;2025 年底 2026 年初,王炳宣加入腾讯混元大模型团队,他是 DeepSeek 第一代大语言模型的核心作者;2026 年 1 月阮翀加入元戎启行,他是 DeepSeek 多模态领域核心贡献者;2026 年 4 月,R1 核心研究员、DeepSeek-Coder 系列第一作者郭达雅被报道加入字节 Seed 团队。

  有说法称,梁文锋最近寻求融资是在给员工做期权定价,以留住人才。

  无论是出于保有技术人才还是做算力储备,AI 厂商都不可能暂停这种“军备竞赛”。在这当中,DeepSeek 还有一些自身的课题要解决。和很多收费服务的厂商不同,DeepSeek 在C端推行 token 平权,专注免费模式,主要靠B端 API 调用商业化。

  这无疑让 DeepSeek 更加需要引入资本市场的力量。

3、被支持,也被期待

  DeepSeek 作为国产大模型始终被寄予厚望。自 2025 年 1 月 R1 模型横空出世以来,它以极低的训练成本达到 OpenAI 顶尖模型的性能,一度引发全球科技股震荡,被视作中国 AI 的标杆。

  一年来,DeepSeek 受到了很多不同形式的支持。比如 R1 上线后,国家超算互联网平台第一时间上线 DeepSeek,提供一键推理和定制化训练服务;体制内曾掀起“学习使用 DeepSeek”的热潮;华为昇腾、寒武纪、沐曦等十余家国产芯片厂商,以及华为云、天翼云、腾讯云、阿里云等九大国内云巨头,也都及时推出适配 DeepSeek 的算力方案或服务。

  “被支持”也意味着“被期待”。人们也同样期待 DeepSeek 能在算力自主上蹚出一条路。V4 全面拥抱华为昇腾,某种程度上是对这种期待的回应。

  同样备受期待的还有模型本身的性能。

  V4 发布前,很多人期望 DeepSeek 的新模型能在多模态上有所进步。然而,V4 仅支持文字输入,暂不支持原生多模态功能。相比之下,Gemini 3.1 Pro 已实现"全模态”(文本+图片+音频+视频),GPT-5.4 支持文本、图片、音频、视频全链路,国内主要大模型也基本支持文本+图片的信息输入。

  DeepSeek 的融资与转向,同样折射出中国 AI 创业公司的某种困境。在技术迭代以月为单位、资本开支以百亿为单位的军备竞赛中,“中小厂”的研发窗口正在急剧收窄。智谱和 MiniMax 已先后赴港上市,月之暗面正以 180 亿美元估值完成新一轮融资。当大厂们挥霍着源源不断的弹药,创业公司们只能选择求助资本市场。

  对 DeepSeek 自己来说,新阶段也意味着新的问题。引入过多外部融资是否会掣肘 DeepSeek 的决策?芯片国产化是否意味着,在一定阶段中美大模型技术的切割甚至差距拉大?这些都是未知数。

  但 DeepSeek 仍有其独特优势。它的开源策略和低成本训练方法论,已在全球开发者社区建立了品牌认知;它在 MoE 架构、条件记忆机制(Engram)、流形约束超连接(mHC)等底层技术上的创新,证明了其不依赖算力堆砌的研发能力。如果 V4 能在国产芯片上跑出有竞争力的性能,它将证明一件事:中国 AI 公司可以在被制裁的环境下,用更少的钱、更自主的供应链,做出世界一流的产品。

  当理想主义撞上现实的算力账单,DeepSeek 正在经历惊险一跃。这场跳跃如果成功,超越的将是整个 AI 产业的旧秩序。