

导读 本文整理自 DACon Shanghai 2026 主题演讲。
今天想跟公共聊一件正在发生、但许多企业还没果真准备好的事:
数据的消耗者,正在从东谈主变成机器,变成 AI Agent。
这件事听起来像一个配景变化,但对数据基础步履来说,它调动的是最中枢的前提假定。
我想解释领悟三件事:第一,Agent 的到来为什么会再行界说数据基础步履;第二,在 Agent 时间,数据语义和数据治理为什么反而变得更难;第三,为什么从元数据、到语义层、再到 Agent 走访层,咱们需要再行界说一套完满的数据时间栈。
分享嘉宾|堵俊平 Datastrato 创举东谈主兼 CEO,Apache Gravitino 共同发起东谈主
01
数据消耗者正在换东谈主
曩昔几十年,咱们构建数据基础步履时,有一个从来没被明说过的前提:数据是给东谈主用的。
默许使用者是分析师、工程师、居品司理,以及 BI 器用背后的业务团队。但今天,一个越来越真实的新变装出现了——它会我方发现数据、一语气 schema、生成查询、触发 pipeline,以致尝试回写系统。这个变装,便是 AI Agent。
回头看曩昔三年 AI 的演化旅途,其实很领悟:
2022 年底:ChatGPT 引爆这波立异,公共关注的是大模子自身,本质是在治理「恢复问题」这件事
2024 年:RAG 兴起,模子运转积贮企业学问库和高下文来作答
2025 年:从 Manus 到 OpenClaw,各样智能 Agent 走到舞台正中央,AI 从「恢复问题」走向「实践任务」

这看似只是一步变化,但本质完好意思不同。恢复问题,只需要生成一个像样的谜底;实践任务,意味着要缠绵、调用器用、深度交互、一语气决策、对恶果负责。
Agent 正在成为新一代的软件操作家。 它不再只是聊天窗口里的恢复器,而是一个果真能操作操作系统、数据平台、基础软件的实践者。它不错是展当今用户眼前的智能助手,也不错是企业里面自主运转的做事流,以致是在后台静默运行、用户毫无感知的自主系统。
当 AI 从恢复走向实践,所有这个词软件架构也在随之变化。传统架构里,东谈主通过 UI 使用运用;Copilot 时间,AI 是援助者;Agent 时间,东谈主给标的,Agent 自行调用器用和 API,操作底层数据与系统。畴昔,Agent 将成为软件最主要的使用进口。

这调动的不单是运用层,而是会重塑所有这个词基础步履层和数据平台层。以往「为东谈主类操作优化」的遐想念念路,在 Agent 时间依然不再适用了。咱们必须接洽的问题,从「若何让东谈主用得顺」,变成了「若何让 Agent 大概高效、安全、可管控地使用各样系统」。
02
果真的瓶颈,不在模子
以往的数据使用者,大多是企业分析师、稽查报表的业务东谈主员、数据科学家和运用开导者;如今越来越多的数据使用者,正在变成 AI 助手、自动化做事流智能体、自主数据运维模范,以及多模范推理系统。

这并非只是新增一类用户,而是绝对调动了举座的数据消耗模式。东谈主类分析师掀开 dashboard,看几个宗旨,提几个问题;Agent 会合手续地发现、搜索、推理和实践——二者在走访频次、活动容貌和容错模式上,完好意思不同。
消耗者依然变了,数据基础步履就必须随着变。 要是底层照旧按东谈主类交互逻辑遐想,插足 Agent 时间就会出现大都智商断层和治理破绽。
这一年,我在各式所在被问烂了团结个问题:「咱们的 Agent 在测试环境跑得很顺,为什么一上业务系统就出问题?」
第一响应险些都是换模子、重写领导词。这不是公共不聪惠——模子的问题平直体当今输出上,让你看到;数据层的问题更讳饰,Agent 会安静地出错,你根柢不知谈它作念了什么。
果真的瓶颈,早已不在模子自身,而是数据平台性能和数据走访智商。去看一个 Agent 在企业里真实干活的全经由:发现可用数据资源、一语气 schema、检索高下文、实践查询、更新数据、触发卑鄙 pipeline……它大部分时分并不花在「念念考」,而是花在「和数据打交谈」。

今天绝大多数数据平台,本质上是为「东谈主类编写 SQL」遐想的,不是为「Agent 操作系统」打造的。 东谈主类能靠教化和临场判断弥补系统弱势,Agent 弗成——它需要机器可读、结构领悟、便于管控的运行环境,缺了这个基础,Agent 就很难果真落地。
我见过太多 Agent 步地死在这里:演示很漂亮,上了坐褥就运转出问题,临了论断是「时间还不锻真金不怕火」。不是时间不锻真金不怕火,pg娱乐麻将胡了中国最新版APP下载是数据层没准备好。
03
Agent 和东谈主类走访数据,差的不是量,是种类
东谈主类和 Agent 在数据消耗上有四个本质永别:
偶尔 vs 合手续:分析师一天掀开仪容盘三次,Agent 可能每分钟在发恳求——数据系统任何不牢固都会被放大到极致。
容忍费解 vs 将费解变成动作:字段界说不领悟,工程师会去问东谈主;Agent 会平直作念出一个解读并实践,这个实践可能在你不知情的情况下触发出东谈主猜度的操作。
手动检查 vs 链式实践不休歇:咱们遐想了许多「临了一齐东谈主眼检查」的经由,Agent 不会在那里停,它拿着上一步恶果平直往下走。
使用器用 vs 编排系统:东谈主掀开报表是在使用器用;Agent 不错调用 API、触发 pipeline、写回数据——它在编排所有这个词系统。

是以在 Agent 时间,数据治理的界说必须升级。曩昔治理中枢是界定「谁能看哪些数据」;今天还要明确「这个 Agent 被允许计算什么、生成什么、实践什么、修改什么」。数据治理从静态权限管控,滚动为界定动态实践界限——咱们治理的,不再只是数据走访活动,而是 Agent 完满的活动实践链路。
04
RBAC 管不了 Agent,不是 RBAC 不好
以往的治理对象是数据表、仪容盘、用户变装,依靠基于变装的静态权限体系,就能高效完成数据治理做事。但 Agent 所处的环境天差地远——它具备动态业务意图、跨系统实践、合手续自主探索、生成式查询等特点。
说平直少许:传统 RBAC 在 Agent 时间依然不够用了。
这不是品评 RBAC。它是为东谈主遐想的,治理了「这个用户能弗成走访这张表」这个问题,况兼治理得很好。但 Agent 带来的不是更复杂版块的权限问题,而是一个完好意思不同的问题:这个 Agent,在这个时刻,带着这样的意图,被允许作念什么?
RBAC 只知谈「你是谁」,却不知谈「你当今想作念什么、为什么这样作念、是否合适高下文拘谨」。静态权限模子,依然无法适配 Agent 运行过程中动态产生的各样活动与推理动作。

05
更深的问题:智商有,但都是散的
不少企业会说,咱们早已搭建完备的元数据、宗旨体系、管控战术和数据血统,落地依旧繁重重重——为什么?
原因是这些智商大多处于分布气象:元数据洒落在多个数据系统,检索圭臬不和谐;治理礼貌分布部署在不同引擎,礼貌难以和谐;数据血统一鳞半瓜,审计链路打欠亨;走访管控礼貌随平台变化,无法酿成和谐的面向 Agent 的走访管控体系。

恶果是一朝让 Agent 接进来,它莫得和谐、真实、机器可读的戒指平面可依赖,只可退而求其次:原生 SQL、临时 API、胶水代码。这类模式仅能在演示场景中运行,博亚体育2026世界杯官方版(中国)官方入口完好意思无法适配企业小心业务的恒久牢固落地。
要是莫得和谐的元数据和战术原语,Agent 最终只可 hack 进去。
公共不难发现下一步是建语义层,但这件事莫得遐想中通俗。
每个企业都但愿和谐各样业务宗旨界说——什么叫「收入」,什么叫「活跃客户」,什么叫「利润率」,什么叫「流失率」。这类和谐化的重要性世东谈主皆知,但现实是,干系界说分布存储在 BI 平台、数据开导剧本、分析 notebook 和各样报表剧本里,有多个版块,久而久之还会出现实体维度偏移、权责区别费解、数据时效不一等问题。
企业并非枯竭业务语义,而是有太多版块的语义。
篮球比赛投注app(中国)官网
语义层的难点从来不单是建模,更深层的痛点是治理、权责区别与业务圭臬和谐。有团队想平直建实质模子来治理这个问题——念念路很好,但要是枯竭和谐元数据算作底层撑合手,实质模子也难以顺利落地成型。莫得牢固根基,语义层最终只会沦为仅能演示、无法落入坐褥的丽都详尽。
06
咱们需要什么:三层,不可偏废
要为 Agent 时间果真遐想数据栈,必须具备三层中枢智商,不可偏废。
第一层:和谐元数据戒指平面厘清企业领有哪些数据、数据存储位置、包摄主体、走访权限以及治理礼貌。莫得这一层,Agent 莫得牢固可靠的高下文,只可靠猜。
第二层:语义层界说数据的本质含义,和谐业务宗旨口径,明确乎体与维度之间的关联,界定泰斗的业务圭臬。莫得这一层,Agent 拿到的只是原始表和字段,无法牢固一语气「净收入」和「总收入」的区别。
第三层:智能体走访层让 Agent 自主发现数据资源、核验操作意图,在合规治理范围内完成操作,并完满留存所有活动轨迹。枯竭这一层,Agent 连得上,但无法受治理地实践。
畴昔的数据平台,不再只是存储加策划,而是一个面向 Agent 实践的分层系统。

07
Gravitino 在作念什么,以及一个被低估的判断
在这个三层架构里,Apache Gravitino 作念的是第一层——和谐元数据戒指平面。
它的中枢职责,是搭建联邦式元数据体系:在多数据源、多引擎、多云之间,建立和谐的元数据视图与全域治理体系。不是替代现存 catalog,而是成为「目次的目次」,提供跨系和谐致的全局高下文。

这件事对 Agent 特出枢纽。Agent 需要的从来不是某个点状系统里的局部信息,而是一套机器可识别、跨系统圭臬和谐的全局高下文环境。语义层的搭建,通常离不开壮健的元数据底座;全域数据治理,也必须依托和谐的管控平面智力落地。
这里有一个被许多团队低估的判断:先有元数据,再谈语义。
完善的语义层建立,高度依赖底层多项中枢智商:互不冲破的定名空间、受治理的 schema、分享实体、标签、战术、血统、所有权,以及跨引擎一致性。莫得这些,语义莫得落点,很难恒久瞻仰。
元数据是根基,业务语义是价值解说。莫得底层牢固、受治理的元数据系统,语义层便是沙堡——改一次底层就碎一次。

在语义层实践上,dbt MetricFlow 给行业提供了很好的参考——把受治理的原始数据索要为圭臬化、可管控的业务语义:宗旨蚁合管束,一次界说、全域复用;BI、分析、AI 卑鄙看到团结份真相;业务逻辑从 BI 孤岛里抽离出来,千里淀到分享建模层。
这对 Agent 相等枢纽。Agent 需要的不单是原始表和字段,更是那些具备可解释性的完满业务语义。要是 Agent 只可交往到零星原始数据,就很难精确一语气「活跃用户」「净收入」「高价值客户」这些中枢倡导;依托圭臬化可复用的业务语义,Agent 输出质料会高许多。

把所有这个词时间栈从上至下放在一张图里:消耗方(东谈主类 / BI / 助手 / Agent)→ 智能体走访层(MCP 通用联接 + ADP 受治理实践)→ 语义层(宗旨/实体/维度/业务逻辑)→ Gravitino 元数据基座(和谐元数据 / 治理战术 / 血统 / 标签)→ 实践引擎(湖仓 / 数仓 / 向量存储 / 流式系统)。
Gravitino 统筹全域数据,语义层赋予业务解读,ADP 让 Agent 在安全界限内合规实践。这不是单一居品治理有商酌,而是一套完满的 Agent 数据时间栈建立念念路。

08
对于 MCP:连上不等于用好
近期行业都在热议 MCP(Model Context Protocol)。这项时间很重要,它让 Agent 能用和谐容貌联接器用,十分于为 AI 生态提供了通用可插拔接口——这是一个真实且繁重的问题,MCP 治理得很好。
但 MCP 主要治理的是「连得上」,而在企业高价值业务、明锐数据处理和大限制数据运用场景中,只是连通远远不够。企业果真见原的是:这张表谁领有?这个字段是否明锐?这个查询是否合适战术?实践后审计纪录在那儿?跨引擎的 lineage 若何保合手一致?

这类深端倪的数据治理需求,仅凭通用的 MCP 条约无法绝对治理。MCP 能买通接口、串联器用,却无法承载完满的企业级数据治理高下文。我并非含糊 MCP 的价值——正巧相背,只是在企业小心的数据运用场景里,MCP 还需要更普遍的元数据、语义和治明智商来补足。
这恰是 Agentic Data Protocol(ADP) 要治理的中枢问题:让 Agent 从「当然谈话纵贯原生 SQL」,进化到「纳入管控体系的意图式实践」。四步:
发现 — 梳理所有可调用的数据开首与资源
描摹 — 明确数据源背后承载的业务含义与圭臬操作容貌
核验 — 判断操作意图与所选数据源是否匹配,阐发具备合感性
实践 — 在既定治理礼貌与权限界限内完成操作
不应该让 Agent 平直从当然谈话跳到原生 SQL——这样作念虽快,但治理风险极高,牢固性也差。四步递次渐进,才是果真能在企业落地的旅途。

09
企业从那儿运转?三步,无谓大跃进
这套体系协同运作,对三类团队都有平直价值:
数据团队:从服务传统 BI,顺利转向服务 AI Agent;减少疏导界说,和谐跨平台数据圭臬,裁减治理运维本钱。
AI 团队:赢得更好的 Agent 数据走访底座,让查询实践旅途更安全,领悟规矩自动化操作界限。
业务团队:AI 取用数据变得真实可审计,各样业务决策也能在安全前提下,冷静交由 Agent 系统自主处理。
畴昔跨越的数据平台,竞争的枢纽不单是「谁能恢复更多问题」,而是 谁能更安全地奉求更多决策。

落地坑诰,三步走,无谓大跃进:
第一步:先和谐元数据。建立时间戒指平面,先把底座打稳。不要一上来就想治理所有 Agent 问题,底座不稳,表层全是沙堡。
第二步:圭臬化中枢语义。从最枢纽的 10 到 20 个业务宗旨运转,厘清治理礼貌,对王人实体、维度与权责包摄。不要试图一次算帐所有语义债务,先管好最重要的那几个。
第三步:引入受治理的 Agent 走访框架。让 Agent 在实践前先发现、先考证。首批落地保举从读密集型做事流运转:当然谈话查询宗旨、受治理数据集发现、基于业务语义的数据检索服务——写回和高风险操作放在后头。
先治理后扩权:治理礼貌先行,再冷静放宽 Agent 自主操作数据的范围。

10
临了只说一件事
要是今天只带走一件事,我但愿是这一句:
当消耗者成为 Agent,数据基础步履必须在三个维度上进化:
从零星并立孤身一人的元数据 → 和谐元数据戒指平面;
从杂沓疏导的宗旨口径 → 圭臬和谐、受治理的语义体系;
从纰漏的原生 SQL 生成 → 战术感知、界限化的 Agent 数据走访。

Agent 时间不单是给传统数据平台加一个聊天进口,而是会 再行界说数据平台的戒指平面、语义层和实践界限。
咱们在 Datastrato 正在作念的,便是把这三层买通——让企业数据基础步履果真具备理财 AI Agent 时间的智商。
要是你正在企业里推这件事,或者正在为这件事头疼,迎接找我聊。你们里面依然有哪些业务数据流运转交由 Agent 贯串了?你们的数据基础步履博亚体育app官网下载,准备好了吗?