自2002年成立至今,Early Data始终坚持用优质的技术方案和高质量的赋能服务来陪伴企业成长和创新。而作为领先的数据集成、管理和交付平台,Denodo 二十多年来一直专注于数据集成和数据管理领域的不断创新,并日复一日地为之努力。两家公司长达数十年的合作,为数据管理技术带来很多新的发展。
2024 年伊始,Denodo 发布年度数据管理预言:五大趋势。如果以数据为中心的组织希望在新的一年获得成功,则需要做好准备,重新审视和评估数据管理策略,并按照业务需求做出调整,以面对数据日益分散的环境。
2024 年涌现的数据管理五大趋势:
1. 反数据引力将掀起热潮。在现代数据和分析取得成功的背后,虽然向云端的迁移、云数据湖和/或云数据仓库仍将发挥重要作用,但对于任何组织而言,若想依靠单一的云服务提供商、云数据仓库或数据湖满足所有端到端数据和分析的需求,将会变得越来越困难。
2. 数据产品的重要性将上升。随着数据日益分散,数据网格作为一种分布式数据管理方法,将开始发挥更突出的作用。在数据网格背景下,业务的利益相关方需要具备定义和创建数据产品的能力,并根据域需求治理数据。IT 部门需要部署正确的基础设施,使业务用户能够更加自给自足。
3. 组织在成功采用生成式人工智能 (GenAI) 的过程中将遇到困难。生成式人工智能将对数据管理产生巨大影响,并催生对业务更加友好的工具和技术。然而,在数据日益分散的环境中,如果无法确保访问的是高质量、可信赖的数据,启用了生成式人工智能的数据管理基础设施将毫无用处。
4. 组织将需要更有效地管理云成本。越来越多的组织不断地将基础设施迁移至云端,但却往往发现一个棘手的事实:云成本可能极不稳定,并且难以预测。组织需要寻找方法来更好地控制云成本。
5. 数据的安全和治理措施需得到简化。组织必须保护数据的安全,并对其进行治理。然而,不应因为数据分布在本地和云端系统中,使得数据的安全和治理措施反而阻碍对数据的访问、协作和创新。2024 年,我们将看到越来越多的解决方案用来简化数据安全和治理措施。
【1. 反数据引力将掀起热潮】
数据引力的概念将不复存在。
任何具备现代数据策略的组织,至少需要一个数据仓库和一个数据湖才能满足自身业务需求。在过去二十年里,数据仓库和数据湖成为解决企业数据孤岛问题的热门选择,但它们也带来了更大的问题。这是因为数据仓库和数据湖由本地和云系统组成,而它们通常分散在不同的地理位置。此外,尽管所有云服务提供商都在尝试独立解决数据和分析的众多问题,但大多数组织都至少会挑选两家云服务提供商的产品和服务,在多云环境中运行数据和分析。
因此,从 2024 年开始,反数据引力将成为新常态。推动反数据引力的其他因素包括:数据复制成本上升、数据主权、本地数据治理法律和法规,以及对加速洞察的需求。反数据引力趋势将延续下去,数据管理领导者应投资于以分布式数据管理为前提构建的技术。
【2. 数据产品的重要性将上升】
数据网格接纳了数据固有的分布式特性,2024 年将是这项技术崛起的关键一年。在传统的集中型范式中,由一支中央数据团队存储和管理数据,并向业务用户交付数据项目。而数据网格则不同,它围绕多个数据域进行组织,每个域都由该数据的主要业务消费者管理。在数据网格环境中,IT 部门的职责将发生转变,开始为数据域提供其运作所需的基础,即在企业中创建和分发数据产品。
当人们认识到数据产品和其他任何产品一样,应受到同等重视时,即代表转折点的来临。以泰诺胶囊为例:其价值不仅仅在于胶囊本身,从说明及适应症,到成分表和安全措施,它的包装面面俱到,赢得了消费者的信任,同样具有价值。与此类似,数据目录也发挥着关键的“包装”作用,将原始数据转化成可信赖、可消费的资产。
在这个以数据为中心的时代,仅仅以吸引人的方式包装数据是不够的:组织需要全面提升最终用户体验。现代数据平台必须借鉴电商巨头的最佳做法,提供诸如个性化推荐和热门产品聚焦等功能,同时通过用户认可和数据血缘/数据沿袭可见性建立信心。此外,这些平台还应该推动实现对数据目录的直接实时查询,并维护一个覆盖用户查询、数据请求和修改的交互式反馈循环。如同及时交货对于电子商务至关重要,对于组织,快速可靠地访问数据也将变得不可或缺。
【3. 组织在成功采用生成式人工智能 (GenAI) 的过程中将遇到困难】
组织在尝试部署生成式人工智能 (GenAI) 和大型语言模型 (LLM) 时,将面临多重挑战,包括数据质量、数据治理、道德合规和成本管理等方面的问题。每道阻碍都与组织的总体数据管理策略有着直接或间接的联系,将影响组织能否确保将完整可靠的数据注入人工智能模型,能否遵守复杂的监管准则,以及能否推动模型与现有系统的集成。
【4. 组织将需要更有效地管理云成本】
随着企业不断将数据运营迁往云端,其将面临一个重大难题:云数据费用无休无止地攀升,难以为继。在未来的一年里,企业的任务不仅仅是控制这些不断上涨的成本,更是要在做到这一点的同时,维持优质服务和有竞争力的表现。激增的云托管和数据管理成本将阻碍公司有效地进行预测并制定预算,而且云服务的定价结构变化无常,大幅超过了之前本地数据存储的稳定成本。
要应对这种财务压力,企业必须全面分析云费用,并在不牺牲性能的前提下追求效率。这涉及详细检查数据的使用模式,找出效率低下的地方,并考虑更具成本效益的存储选项。为了有效管理云数据的成本,公司需要关注查询所消耗的算力,以及相关的数据流出量,将数据集的使用情况制成表格,并优化存储解决方案。通过采用财务运营 (FinOps) 原则,将财务问责与云服务的灵活支出模式相结合,可以强化这些努力的效果。通过定期监控支出、预测成本并在云管理中实施财务最佳实践,组织可以在节约成本和运营效率之间取得平衡,确保建立在经济上和功效上都堪称健全稳固的数据策略。2024 年,我们将看到,FinOps 仪表板的使用量将显著增加,用于更有效地管理云数据费用。
【5. 数据的安全和治理措施需得到简化】
数据整合不佳会在许多层面影响组织的敏捷性,但对这种影响最敏感的或许是数据安全和治理方面。单独更新大量孤岛系统需要耗费时间,因此无法同时保护或治理企业的所有系统。
为了应对这项挑战,一些组织已开始采用全局数据安全和治理政策。全局数据安全政策不仅可以基于用户角色,还可以基于位置,因此,正在度假的员工可能无法访问主办公室的数据。而全局数据治理政策可以跨越公司内的不同系统,统一某些字段的拼写标准。
然而,为了实时同步应用全局政策,此类数据安全和治理措施的实施需要基于一种逻辑型数据管理方法。
逻辑主导未来
为了克服上述五种趋势各自固有的挑战,组织需要能够利用从设计之初就支持分布式数据架构的数据管理策略。传统的数据管理方法依赖于在物理层面将多个系统中的数据复制到中央存储库(如数据仓库或数据湖)中,但无论是在理论上还是在实践中,此类方法都不支持固有的分布式数据。相比之下,逻辑型数据管理方法可实时连接异构数据,无需对数据进行复制,这正是支持固有分布式数据所必需的。
如今,随着企业不断利用不同云服务提供商的最佳功能,反数据引力已开始成为常态。当数据失去重心时,逻辑型数据管理解决方案可以“集中控制”数据,换言之,无需在物理层面移动数据,即可使用统一的方式提供数据。
许多企业已开始投资数据网格等现代架构,数据产品的创建速度也在加快。逻辑型数据管理平台的出现将使 2024 年成为数据产品兴起的分水岭。从数据编目到最终用户体验,从快速数据访问到强大的安全和治理措施,这些平台将囊括各个方面。这些集成式平台将为企业提供建立繁荣数据文化并提高用户采用率所需的资源。因此,我们预言 2024 年将成为转型之年:企业将改变其管理、利用和评价数据的方式。
生成式人工智能将对我们的业务运营方式产生重大影响。在此背景下,逻辑型数据管理平台不再仅仅是一种不错的选择,而是任何生成式人工智能计划必不可少的关键要素。经过妥善治理的高质量数据是这些先进智能模型的运转基础,将对其输出结果的可靠性和道德合规性产生重大影响。如果缺乏强大的数据管理基础,即使是最先进的生成式人工智能项目也有产生不可靠或不合规结果的风险。
实时 FinOps 仪表板也需要逻辑型数据管理平台,因为传统数据管理平台无法针对不同云系统中不断变化的使用模式,提供鸟瞰式全局实时报告。
最后,对于实现有效的数据安全和数据管理计划,逻辑型数据管理平台具有三大优势:不需要复制数据进行整合,因此数据副本更少,风险更低;可跨越不同的系统,提供集中式的数据访问控制和监控,类似于上文提到的 FinOps 用例;将政策与特定数据存储库分离,以便无缝、灵活地控制企业数据的保护和治理。
从 2024 年起,逻辑型数据管理将建立稳定的地位,因为它允许所有组织以最高效、最划算的方式管理分布式数据。
关于Early Data
作为专业的数据管理专家,Early Data已为上百家客户提供数据集成、数据管理、数据科学、自助式商业智能等服务,帮助用户实现数据的充分挖掘和有效利用,优化资源配置和使用效率,加速数字化转型!
作为Denodo银牌合作伙伴,Early Data能够为客户提供更有竞争力的价格和稳定可靠的一站式技术支持。未来,Early Data也将结合 Denodo 出色的数据虚拟化支持和逻辑数据编织能力,加速数据生态建设,为客户提供更先进的数据安全、集成和治理方案。