Databricks推出面向AI工作负载的PostgreSQL数据库Lakebase

  最近,Databricks 正式发布Lakebase。这是一个基于 PostgreSQL 的无服务器 OLTP 数据库,能够独立扩展计算和存储。它旨在与 Databricks 平台集成,提供一种综合事务与分析能力的混合解决方案。

  据 Databricks 称,他们推出这项新的无服务器服务是希望在单一平台上集成数据库、分析和治理功能,从而简化实时应用和 AI 工作负载。Lakebase 提供了即时数据分支、特定点时间恢复和统一访问控制,旨在加快开发速度,提高可靠性,并保持操作数据和分析数据的同步。

  Databricks 认为,操作型数据库并非为当前 AI 驱动的应用而设计,并将 Lakebase 称为“一种新型的操作型数据库架构,其特点是在持久化的数据湖存储之上进行轻量级的临时性计算。”项目团队解释了传统数据库面临的挑战:

由于每个查询都在争夺相同的固定 CPU 和内存资源,单个查询都可能影响所有的实时操作。这些限制拖慢了团队效率,使基于实时数据的工作变得风险重重。随着应用程序的自动化程度越来越高,系统实时对数据进行处理,这种共享的、脆弱的基础设施变成了更大的隐患(……)为了消除这种架构瓶颈,我们创建了 lakebase 这种新类型的数据库架构,将计算与存储分离。

  Databricks Lakebase 提供了一个集成到 Databricks 数据智能平台的托管 Postgres 数据库服务,提供自动扩展、分支管理和与 Databricks 服务的无缝集成。这家因围绕 Apache Spark 构建数据分析与 AI 平台而闻名的公司,为其广受欢迎的 Lakehouse 解决方案增添了全新的选项。Databricks 首席技术官兼联合创始人 Matei Zaharia 在 LinkedIn 上撰文称

我们相信,这将使使用操作型数据库的工作变得极其简单和可靠。无论操作由人工执行还是由代理执行,你都可以即时创建数据库分支、生成快照、回滚到一个特定的时间点,或者为离线分析创建另一个副本(……)同时完全保留标准的 Postgres 接口和扩展功能。

  新增的托管选项支持单实例高达 8TB 的容量和最新的数据库版本 Postgres 17,包括用于 AI 驱动搜索的 pgvector 扩展。正式发布公告中重点展示的应用场景包括:机器学习的实时特征服务、AI 智能体的持久内存支持以及嵌入式分析功能。

  自 2025 年 6 月以来,Lakebase 一直在开发当中,它基于 Databricks 从 PostgreSQL 公司 Neon 收购的技术构建,并通过去年 10 月收购 Mooncake 得到了进一步加强——改善了 PostgreSQL 数据库与 lakehouse 数据的集成。

  Lakebase 现在提供两个版本:自动扩展和预配置。自动扩展是一个比较新的选项,Databricks 正在其中构建新功能,并继续添加预配置版本中当前可用的功能。Ampt 联合创始人和亚马逊云科技无服务器英雄 Jeremy Daly 在其新闻通讯中评论道:

Databricks 新推出的 Lakebase 无服务器数据库正在引起人们的一些关注。将存储和计算分离并不是什么新鲜事,但使用 Postgres 接口直接写入 lakehouse 存储,并且是用 Spark、Databricks SQL 和其他分析引擎可以立即查询的格式,而且不需要 ETL,这个变化是巨大的。

  自动扩展版本按使用计费,费用以 Databricks Unit(DBU)为单位计算,具体取决于工作负载消耗的容量单位小时数。客户可设置自动扩展的最小值和最大值范围,并配置“缩至零”的超时时间。存储费用则单独计算。

  在亚马逊云科技的云平台上,Lakebase 现在已经可以用于生产环境,而在 Azure 平台上目前尚处于公开预览阶段。预计在未来几个月内,Lakebase 将完全支持 Azure,并在今年晚些时候支持谷歌云。根据公告,他们计划在 2026 年初获得 SOC2 和 HIPAA 认证。高可用性(可读从节点)目前仅在预配置版本中提供。

  原文链接:https://www.infoq.com/news/2026/02/typescript-6-released-beta/