数据库

首页 » 常识 » 问答 » 湖仓一体面向数智时代数据治理需求的未来技
TUhjnbcbe - 2025/1/18 19:06:00

来源:中关村产业研究院近日,中关村产业研究院发布了系列关于湖仓一体技术架构的调研专栏。滴普科技以湖仓一体技术专家身份参与其中,并作为国内典型厂商,得到研究院的深入调研。该系列专栏共分为五期短篇:

①数智时代对数据治理能力的五大需求特征

②数据管理技术发展脉络

③湖仓一体技术适应数智时代数据治理的六个典型特点④湖仓一体技术架构相关国内外代表性企业⑤未来数据治理趋势及建议1数智时代对数据治理能力的五大需求特征数字经济发展大势之下,人工智能技术渗透应用之时,当前及未来对数据处理能力的需求会呈现出五类新特征,是传统数据仓库等技术架构难以满足的:

图:数智时代对数据治理能力的五大需求特征

(中关村产业研究院整理绘制)

一是智能化基础设施覆盖增加,IoT广泛链接带来的数据量暴涨如工厂数字化转型中涉及到海量智能设备触点以及高采集频率累计的数据,IDC预测到年,全球将产生ZB的数据(以年为33ZB为例,复合年增长率为27%),49%的数据将存储在公有云中,数据存储市场规模将达到.9亿美元;二是非结构化数据积累量暴增相关调研显示,企业内部80%都是非结构化数据,如此量级数据却只占整体使用率30%,面向人工智能亟需增强对非结构化数据的处理能力;三是AI应用场景对数据实时性、按需性且高质量反馈的需求如工厂数字化转型针对时序数据要求具备高度的流式计算能力,物联网尤其是工业物联网的发展,对机器和产线设备产生数据的管理和高效使用成为工业生产提质增效、精益求精、智能管控的重要有效手段,而随着工业设备所产生数据的频率更快、采集时间更密集、测点更多、数据量更大等特点,工业AI场景需要有实时性更好处理时序数据更强的能力;四是对AI计算框架兼容性能力的要求提升随着人工智能应用场景的扩展以及与众多的学科和领域交叉融合,对AI的计算框架也提出了更多的要求,包括最大化实现编译优化、更好的利用高算力、多任务的支持、模型可信赖等需求,AI计算框架正向着全场景、超大规模AI、安全可信等方面深度发展;五是对具有模型开发和机器学习全生命周期平台化能力的要求提升企业对于数据智能服务认知的不断加深,如何将数据分析服务与机器学习服务无缝集成,为更为广大的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键,机器学习平台与大数据平台深度融合使得性能、自动化、智能化水平不断提升,同时也带来了新的挑战,包括更好的AI与大数据之间的安全隔离机制、机器学习原生代码的无缝对接、从数据准备/模型构建/开发到生产的全生命周期平台化的框架融合、预置算法和快速启动等。

目前,传统的数据治理技术架构难以完全满足上述五类特征,而由Databricks提出的Lakehouse(湖仓一体)架构与数智时代数据治理需求的适配潜力较大。依据Databricks公司对Lakehouse的定义,湖仓一体是一种结合了数据湖和数据仓库优势的新范式,在Gartner年度数据管理领域的成熟度模型报告—HypeCycle中,「湖仓一体」(Lakehouse)与EdgeDataManagement、IntercloudDataManagement、ActiveMetadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一,备受业界

1
查看完整版本: 湖仓一体面向数智时代数据治理需求的未来技