过去的一年里,新技术与新趋势不断涌现,在改变人类生活方式的同时,也为产业带来了前所未有的发展机遇。2025年随着新一轮科技革命和产业变革加速推进,数据管理将发生怎样的变革?在人工智能持续发展的大潮中,企业该如何充分释放数据价值、应对愈加复杂的业务挑战?企业全球数据管理领域领军企业Denodo日前发布2025新趋势展望,分享了关于数字化转型新兴技术及企业管理创新的前沿洞察。
Ángel Viña(Denodo创始人兼首席执行官)表示:
2025 年展望 – 数据管理的未来
数据管理架构将不断发展,以满足日益增长的数据量、各种数据源和更多样化的数据消费用户的需求。此外,还会有更严格的隐私和治理要求,并且更加重视提供对企业数据的安全访问,以便 GenAI 应用的使用场景化。
以下是我的 2025 年“展望”清单:
1. 逻辑/联邦数据架构的兴起
○ 数据网格和数据编织的增长。 企业正在从单体数据湖转向分布式数据架构,如数据网格和数据编织,他们将数据视为产品并按域组织数据。这些方法支持去中心化、联邦治理,在这种治理中,数据所有权分布在各个团队中,从而提高了可扩展性和自主性。
○ 对统一数据生态系统互操作性的需求增加。 逻辑数据架构将推动对跨不同数据源(包括云、本地和混合环境)的无缝互操作性的需求。支持跨分布式系统的数据系统语义统一和查询计算的工具和平台将获得显著的吸引力。
2. 混合和多云数据管理成为新常态
○ 用于数据主权的混合云架构。 数据隐私法规和对数据主权的渴望将推动组织采用混合架构,其中敏感数据保留在本地或私有云中,而不太关键的数据存储在公共云中。这种方法可在利用公共云服务可扩展性的同时,实现法规遵从性。
○ 跨云提供商的统一数据管理。 随着越来越多的企业使用多云,对跨提供商的统一数据管理工具的需求将不断增长。能够跨 AWS、Azure、GCP 和其他平台提供单一视图和治理框架的解决方案将受到高度重视。
3. 更加关注数据产品生命周期管理
○ 数据产品是数据民主化的关键推动因素。 数据产品将原始数据转换为增值服务,为最终用户提供可操作的洞察力,以实现业务目标。不同的交付模式和自助服务界面将使所有组织中的新成员能够使用数据产品,从而显著增加数据使用量。
○ 数据产品生命周期变得更加复杂。 数据产品由具有不同技能和职责的不同角色管理,通常以去中心化的方式进行管理。数据管理平台将支持数据产品的整个生命周期,从创建(设计、实施、部署)到发现、使用和监控。
4. 用于数据管理的 AI:AI 驱动的数据管理的扩展
○ 自动数据编目和发现。 AI 将在数据发现、分类和编目中发挥更大的作用,帮助组织自动进行数据组织和标记。AI 驱动的数据目录将提供有关数据沿袭、数据质量和使用模式的实时洞察。
○ 智能数据执行。 数据管理平台将通过预测使用模式、将查询映射到正确的数据执行引擎以及自动调整数据工作负载以最大限度地降低成本和提高性能,来支持基于 AI 的数据查询执行优化。
5. 用于 AI 的数据管理:支持 GenAI 模型的丰富
○ RAG 增强。 除了对 LLM 进行微调以供企业使用之外,GenAI 模型在最初训练时使用的数据上停留在某个时间点。它们不了解企业数据或上下文,也无法访问实时信息。数据管理平台将不断发展,以提供和自动化对 LLM 的 RAG 增强,并通过企业数据将 GenAI 应用程序的行为场景化。
6. 继续向去中心化数据治理转变
○ 面向域的数据治理。 去中心化数据架构将导致面向域的治理,其中某些数据治理策略是在域级别而不是仅在中央进行管理的。这使得最接近数据的团队能够对其质量和合规性负责。
○ 监管重点日益关注数据透明度。 监管要求越来越关注数据透明度,尤其是在 AI 驱动的决策环境中。数据治理架构将包括用于跟踪数据来源和确保可解释性的框架,以遵守新的数据和 AI 法规。
○ 数据可观测性作为核心功能。 数据可观测性使组织能够监控数据健康状况、沿袭和使用情况,这将成为一项标准功能。可观测性工具将提供有关数据管道、数据新鲜度和沿袭的洞察,确保用于分析和决策的数据的可靠性。
7. 关注超个性化、大规模隐私和数据安全
○ 超个性化功能。 所有数据都将提高为每个客户定制数据使用体验的需求。数据管理将在下一代数据交付平台中发挥关键作用。
○ 保护隐私的数据管理。 对数据隐私的担忧将导致采用保护隐私的技术,以便在不泄露敏感信息的情况下进行数据分析和共享。
○ 自动合规性监控和策略实施。 随着数据隐私法规的日益严格,企业将依赖自动合规性监控工具来确保数据管理实践符合所有区域和数据环境的法规。
8. 越来越重视成本优化和可持续性
○ 经济高效的数据存储和计算。 数据管理将增加对更具成本效益的存储和计算数据解决方案的支持。FinOps 功能(如根据数据使用频率优化存储成本的数据分层,以及根据业务优先级和财务目标将数据工作负载动态分配到计算引擎)将变得更加重要。
○ 节能数据处理。 可持续性将成为数据管理中考虑的新主题。组织将寻求节能的数据处理和存储实践,包括云环境中的碳足迹跟踪,以满足企业可持续性目标和法规。
2025 年的数据管理将更加分布式、实时和动态,其架构将优先考虑模块化、治理、AI 驱动的自动化和定制数据使用。这种演变将使组织能够在日益复杂的数据生态系统中满足可扩展性、法规遵从性和数据民主化的需求。
Alberto Pan(Denodo首席技术官)表示:
预测:到 2026 年,超过 50% 的企业会将数据系统分布和异构性视为开发支持 Gen AI 的数据产品的主要挑战。
论证:2024 年 Gartner 技术架构师调查 (1) 显示,“跨不同平台的数据系统分布”是制定数据架构决策时第二个最常被引用的挑战,56% 的架构师都强调了这一点。
Gen AI 应用程序必须以安全、受控的方式访问所有组织系统中的数据,即使这些数据是动态的和实时的。但是,当前将 Gen AI 应用程序与外部数据源连接的方法(例如检索增强生成 (RAG) 模式)忽略了数据分布的复杂性。将 Gen AI 应用程序扩展到试点和基本用例之外,需要直接解决这一挑战的解决方案。
建议:考虑使用数据虚拟化等逻辑数据管理技术,为 AI 驱动的数据产品建立可访问的数据层。这些技术可以实现对多个数据源的实时统一访问,为实施一致的安全和治理策略提供单一入口,并允许以业务语言呈现数据。
(1) 《Gartner 2025 数据管理规划指南》。发布于 2024 年 10 月 14 日。
预测:到 2026 年,超过 80% 构建集中式云数据仓库或湖仓架构的组织将决定把某些工作负载迁移到其他环境,包括同一云提供商内的其他数据处理系统、其他云中的系统,甚至是本地环境(数据回迁)。
论证:数据民主化和基于使用量的云定价模式的驱动,导致许多大型组织的成本飙升。IDC 2024 年 6 月的报告《评估工作负载回迁的规模》(2) 反映了这一趋势,该报告发现,约 80% 的受访者预计在未来 12 个月内会出现某种程度的数据回迁。回迁既复杂又昂贵,因此组织还会通过为每个用例选择在效率和成本效益之间取得最佳平衡的云环境和系统来优化成本。
建议:随着技术和业务需求的发展,投资于简化将用例迁移到最合适环境的技术。开放表格式可实现与多个处理引擎兼容的数据表示。此外,逻辑数据管理技术(例如数据虚拟化)使数据使用者无需了解各个处理引擎的细微差别,包括 SQL 方言、身份验证协议和访问控制机制。
预测:到 2026 年,超过 80% 追求数据产品战略的组织将使用多个数据平台创建关键数据产品。对于最初设想采用单一供应商方法的组织而言,这种转变将给企业范围的数据民主化计划带来挑战。
论证:数据产品管理计划本质上是分布式的,因为没有哪个单一平台能够跨所有数据产品优化功能、性能和成本。支持这一点的是,只有不到 5% 的 Snowflake 和 Databricks 共同客户计划停用其中一个平台,而大多数客户还在使用其他云和本地系统 (3)。此外,在联邦治理模型中,数据产品所有者通常会选择最能满足其特定功能和预算要求的平台。此外,随着技术创新步伐的加快,新的数据平台将不断涌现。
鉴于这些动态,企业数据产品战略必须考虑数据分布和平台多样性,以确保敏捷性、一致性和成本效益。
建议:考虑采用数据虚拟化等逻辑数据管理技术,以建立统一的基础架构,用于跨不同平台发布、保护和访问数据产品。这种方法使数据产品所有者能够灵活地选择最适合其需求的系统,同时确保在全球范围内所有数据产品的互操作性、可重用性和简单的发现。
(3) 为什么 Databricks 与 Snowflake 不是零和博弈。
Terry Dorsey(Denodo 技术推广者)表示:
人工智能将推动更多的组织关注
人工智能正日益推动组织重新思考数据管理、运营协调和流程优化。当前的数据管理方法,包括管道、ETL 和 ELT,面临着相当大的挑战。例如,80% 的企业报告经常出现数据管道故障,74% 的企业在数据质量方面苦苦挣扎,而解决问题通常需要一天以上的时间,37% 的组织甚至需要长达一周的时间。安全问题也很普遍,57% 的企业将数据安全视为一项重大挑战。这种数据管理方面的根本性难题破坏了主要战略计划,例如数据治理、数字化转型和人工智能部署,所有这些计划的成功率都很低。Gartner 估计,到 2027 年,80% 的数据治理计划将会失败,而人工智能项目的失败率徘徊在 70-80% 之间,尽管概念验证取得了成功,麦肯锡报告称只有约 30% 的数字化转型项目取得了成功。
随着利用人工智能保持竞争力的压力越来越大,组织正在创建新的角色,例如首席人工智能官 (CAIO),并重新审视首席信息官和首席数据官的角色,以容纳人工智能计划。然而,人工智能研究的进展速度异常之快,这通常超过了组织采用这些技术的能力,尤其是在规模化方面。许多企业正试图在相同的组织结构内并使用传统方法来集成人工智能,但这可能并不足够。
人工智能驱动转型的关键组织关注领域
数据安全和隐私 数据安全和隐私是人工智能计划不可或缺的一部分,这增加了保护数据的挑战性和关键性。组织必须在有效的管理、审计和控制与广泛采用人工智能所需的灵活性之间取得平衡。例如,许多企业目前在系统或源级别管理安全。然而,随着人工智能的发展和更广泛的数据访问需求,这种方法可能会导致成本和风险升高。为了缓解这种情况,组织可以采用优先考虑集中但灵活的安全模型的数据治理框架,确保数据保护和可访问性之间的平衡。
增强的变更管理和变更控制 随着组织将职责分配给技术和非技术团队,他们必须制定稳健的变更管理和变更控制策略。变更管理(侧重于沟通和采用)和变更控制(侧重于技术实施)是独立但相关的领域,在人工智能驱动的环境中都至关重要。最佳实践可能包括跨职能的人工智能工作组、清晰的沟通协议和培训计划,以促进平稳过渡。例如,对参与人工智能采用的非技术人员实施结构化培训,可以帮助弥合技术团队和业务团队之间的差距。
与业务成果保持一致 IT 与业务目标之间的脱节可能是人工智能成功的主要障碍。IT 部门通常关注技术指标,而业务部门则优先考虑组织目标。鉴于数字化转型和人工智能计划的高失败率,IT 团队应与业务部门更紧密地合作,以优先考虑可衡量的业务成果。跨职能协作,由技术和业务领导者共同领导人工智能驱动的项目,可以帮助确保项目与核心组织目标保持一致并交付切实的价值。
业务流程优化和新兴技术集成 转型,尤其是涉及人工智能、物联网和自动化的转型,本质上需要业务流程优化。随着组织采用人工智能,他们必须评估并可能重构其流程,以有效地集成新技术。这可能包括开发自适应工作流,允许将人工智能驱动的洞察无缝地融入业务运营中。在这个领域取得成功的组织通常采用循环方法进行流程优化,随着人工智能能力的发展不断迭代和更新工作流。
重组企业 IT 以实现敏捷性和协作 鉴于人工智能的快速发展,传统的 IT 结构可能会限制组织响应新兴需求的能力。许多企业将 IT 职能(尤其是围绕数据管理的职能)孤立起来,这可能会阻碍需要无缝数据访问和协作的计划的有效性。可能需要一个更敏捷、更协作的 IT 结构,其中包括数据治理和跨部门角色。例如,企业可以在 IT 部门内建立混合角色或专门的人工智能集成团队,将技术专长与特定领域的知识相结合,以更有效地支持人工智能和数据计划。
面向未来人工智能驱动型组织的愿景
以人工智能为中心的组织的结构旨在鼓励 IT 和业务职能之间持续保持一致,优先考虑数据安全和隐私、变更管理和业务流程优化。此类组织是敏捷的,具有支持跨部门协作的灵活 IT 和治理结构。他们实施在数据保护和访问之间取得平衡的治理框架,使用培训计划来确保人工智能的顺利采用,并不断优化业务流程。通过采用这些原则,组织可以提高人工智能、数字化转型和数据治理计划的成功率,从而在人工智能驱动的世界中占据竞争优势。
自主代理和代理工作流
大模型 (LLM) 可以做一些非常了不起的事情。我们在产品中特别利用了文本到 SQL 和摘要功能。由于 LLM 非常擅长评估/审查信息,并且在自我评估方面没有自负情绪,我们看到许多研究和框架都在寻求利用这种能力。它们还非常擅长根据自然语言对任务做出决策和构建信息。这些功能是自主代理和代理工作流的基础。
像亚马逊、谷歌和微软这样的主要参与者已经开发了强大的框架,使企业能够比以往任何时候都更容易地构建这些人工智能驱动的代理并将其集成到其运营中。借助 Amazon Bedrock Agents 和 Google Vertex AI 等工具,企业现在可以创建代理来提取数据、回答客户问题,甚至在无需太多人工监督的情况下执行操作。组织可以慢慢开始,实施和观察自主代理和代理工作流可能比部署给用户更容易,因此即使从这种能力开始也可能更具吸引力。预计这些将在未来一年左右的时间内变得更加流行。
增量/持续机器学习
如今,一些企业正在对 LLM 进行微调,在某种程度上,您可以将其视为增量学习。鉴于重新训练大型模型的挑战,增量/持续学习的能力意味着模型能够保持最新状态。在这个领域有很多研究,我预计它甚至会在 GenAI 之外发展壮大。
从数据管理的角度来看,向增量学习范式转变意味着企业可以更有效地利用实时数据。此功能对于需要立即进行数据解释和响应的应用程序至关重要,例如金融交易算法、实时推荐系统和动态定价模型。随着研究的继续和这些技术的日益成熟,增量和持续学习对人工智能部署和功能的影响可能会增加,使其成为未来人工智能技术进步的重点领域。
图数据库的使用兴起
我们已经听到了很多关于 LLM 的一些缺点,以及在某种程度上语义搜索的缺点。图提供了一种对复杂关系进行建模的方法,因此最近有大量研究利用图数据库来解决其中的一些限制。有一些提示方法,例如基于节点、基于子图、基于路径、基于层次结构、基于社区等等,这些方法都基于图的功能。在某些情况下,节点属性是嵌入的,在某些情况下是清晰的。有各种各样的技术可以根据数据填充图来构建此类模型,因此需要能够在图中查询数据以及将数据引入图中。
云回迁
83% 的受访企业正在将其部分工作负载迁移到私有云和本地系统。诚然,这些企业各自迁移的百分比存在一些不确定性;然而,从数据管理的角度来看,只需一个企业将数据存储在多个位置即可。这可能会对数据管理策略产生重大影响。
Andrea Zinno(Denodo 技术推广者)表示:
合成数据
对隐私、个人数据处理、拥有训练人工智能模型的良好样本的重要性以及拥有特定(不一定聚合)数据的需求的考虑,以便能够参考个人对现象进行建模,将对合成数据产生更大的推动作用,合成数据将在选择和构建用作分析基础的样本的过程中发挥越来越大的作用。
主动本体(或主动数据目录)
在数据民主化的精神下,数据在公共和私营组织内的日益普及,以及逐步扩大其边界、迈向允许组织业务模型中的相关方(合作伙伴、供应商、公共管理部门、客户……)共享和使用数据的生态系统的趋势,使得正式和系统地解决“含义”问题变得更加重要,以便为此生态系统中的所有参与者创建通用语言。
然而,深入理解数据的需求(通过平衡内涵和外延成分来实现),以及从一个切换到另一个的可能性(或者说是必要性),将决定人们对主动本体或主动数据目录以及基于本体的数据管理 (OBDM) 的兴趣日益浓厚。
Denodo北欧公关团队表示:
ESG 作为竞争优势
北欧客户越来越多地根据供应商在 ESG 实践方面的表现和沟通情况来选择供应商。那些没有与 CSRD 及其他标准相符的稳健 ESG 实践的企业正日益被排除在招标之外。北欧企业可能会优先考虑具有社会可持续性的合作伙伴,重点关注道德劳动实践并确保其供应链中的公平工资。企业需要高效的数据管理来管理数据收集和报告。
人工智能的下一步
将人工智能平台连接到集成的人工智能代理的讨论越来越多。原因是它有可能结合一些技术优势提供更精确的行业特定答案——媒体希望看到的具体用例。
银行、气候和数据
具有良好环境和社会资质的银行将受益于更有利的贷款条款。比以往任何时候都多的金融科技创新正在支持可持续银行业务。基于数据管理的数字工具将帮助银行为消费者和企业提供个性化的金融服务。
银行将越来越关注管理气候相关风险。这包括评估气候变化对贷款组合和投资带来的风险,并确保长期金融稳定。
公共部门和数据管理
公共部门参与者正在迅速变得更加数字化,包括确保数据安全以及在相关参与者之间共享数据(例如,在医疗保健领域)。目标是为公民提供更好的服务。政府正在确保以合乎道德和负责任的方式使用人工智能。管理机构协调各种网络安全计划。
Ravi Shankar(Denodo高级副总裁兼首席营销官)表示:
支持 AI 的企业数据
人工智能的好坏取决于它获取的数据。不仅是任何数据,而是值得信赖的数据。即使数据分散在不同的位置、格式和延迟中,也需要为人工智能提供统一的可靠数据。
在互联网公共数据上训练的公共 LLM(如 ChatGPT)可以回答一般性问题,如提供假期旅行建议,但它们无法回答与企业内部运作相关的问题(如上个月发放了多少贷款)。为此,需要使用防火墙内的企业数据来训练 LLM。
RAG 支持这种对企业数据的上下文感知。因此,由 RAG 支持的支持 AI 的企业数据将成为关键趋势。
支持 AI 的人才
随着人工智能在组织内的普及,高管们要求其经理培训其员工队伍,以提高生产力并以更少的资源生产更多产品。
这项任务要求对员工进行大规模培训,尤其是在面向客户的部门,如销售、营销和客户服务。
人工智能素养将成为 2025 年的关键趋势。
人工智能挑战
随着人工智能在回答问题方面变得越来越出色,高管们将依赖人工智能来提供决策建议。
他们应该在多大程度上信任人工智能而不是他们的经理,这将成为一个问题。
2025 年,我们应该会看到人类与人工智能之间的竞争,以证明谁更值得信赖,能够为高管提供更好的数据和洞察力。