年黑天鹅事件不断出现,疫情给人们的生活也带来了改变。在后疫情时代,伴随着云原生技术的发展,企业寻求更加敏捷、更加灵活的数据分析方案,数据湖刚好满足这核心诉求。有不少同学问笔者,Hadoop与数据湖有啥区别?笔者认为,其一:数据湖分析支持的数据格式包括非结构化与半结构化。虽然HDFS可以存图片,但是一般还是有视频图片的专门的服务器的,原因存储计算不分离情况下,大数据硬件存图片不经济;其二:数据湖往往跟云结合更加紧密,因为存储计算分离以后,存储与计算可以单独发展。计算可以跟业务系统错峰调度,再结合不同公司计算任务的差异,可以增强弹性能力。其三:数据湖的技术与数据仓库进一步融合,如Hudi支持数据实时写入、事务与更新。
阿里云云原生数据湖分析DLA,在这样的背景下诞生,历经两年的发展,充分结合云、Presto、Spark、Hudi等优势,构建出了新一代的大数据方案。目前DLA已经服务了数千客户,不少公司的核心数仓也是基于DLA;DLA也集成在友盟、CDN、DBS(数据库备份)、IOT、QuickBI等产品中,间接服务了数万客户;
我们也重视开源与商业合作,目前,DLA是ApachePrestoDB基金会的代表;与Alluxio达成战略合作,共同构建缓存系统;团队有数位Apache的Committer,一起参与贡献开源社区。
本文主要概述讲述下阿里云云原生数据湖分析(简称DLA)为了应变分析之大变局,在年主要实现的一些事情。数据湖分析DLA