数据库

注册

 

发新话题 回复该主题

开发效率提升15倍批流融合实时平台在好 [复制链接]

1#

简介:本文由好未来资深数据平台工程师毛祥溢分享,主要介绍批流融合在教育行业的实践。内容包括两部分,第一部分是好未来在做实时平台中的几点思考,第二部分主要分享教育行业中特有数据分析场景。

背景介绍

好未来是一家年成立教育科技公司,旗下有品牌学而思,现在大家听说的学而思培优、学而思网校都是该品牌的衍生,年公司在美国纳斯达克上市,年更名为好未来。年,公司的业务范围已经覆盖负一岁到24岁的用户。目前公司主营业务单元有智慧教育、教育领域的开放平台、K12教育以及海外留学等业务。

好未来数据中台全景图

上图为好未来数据中台的全景图,主要分为三层:

●第一层是数据赋能层●第二层是全域数据层●第三层是数据开发层

首先,数据赋能层。主要是商业智能、智慧决策的应用,包括一些数据工具、数据能力以及专题分析体系,数据工具主要包括埋点数据分析工具、AB测试工具、大屏工具;数据能力分析主要包括未来画像服务、未来增长服务、未来用户服务以及新校区的选址服务;专题分析体系主要包企业经营类专题分析等等。

其次,数据全域层。我们期望将全集团所有的事业部的数据进行深入的拉通和融合,打通不同业务线、产品线的用户池,从而盘活全集团的数据。具体的手段是IDMapping,将设备id、自然人、家庭三个层级的id映射关系挖掘出来,将不同产品上的用户数据关联起来。这样就能够形成一个打的用户池,方便我们更好的赋能用户。

最后,数据开发层。数据开发通过一些列的平台承载了全集团所有的数据开发工程,主要包括数据集成、数据开发、数据质量、数据服务、数据治理等服务。我们今天要分享的实时平台就是在数据开发中。

好未来T-Streaming实时平台

实时平台构建前的诉求

实时平台在构建之初,我们梳理了四个重要的诉求。

●第一个诉求是期望有一套统一的集群,通过提供多租户,资源隔离的方式提高资源利用率,解决多个事业部多套集群的问题。●第二个诉求是期望通过平台的方式降低实时数据开发的门槛,从而能够覆盖更多的开发者。●第三个诉求是期望能够提供通用场景的解决解方案,提高项目的复用性,避免每个事业部都开发相同场景的分析工具。●第四个诉求是对作业进行全方位的生命周期管理,包括元数据和血缘,一旦有一个作业出现异常,我们可以快速分析和定位影响范围。

实时平台功能概述

现在我们平台已经是一个一站式的实时数据分析平台,包括了数据集成、数据开发、作业保障、资源管理、数据安全等功能。

●在数据集成方面,我们支持数据库、埋点数据、服务端日志数据的集成,为了能够提高数据集成的效率,我们提供了很多的通用模板作业,用户只需要配置即可快速实现数据的集成。●在数据开发方面,我们支持两种方式的作业开发,一种是FlinkSQL作业开发、一种是FlinkJar包托管,在FlinkSQL开发上我们内置了很多UDF函数,比如可以通过UDF函数实现维表join,也支持用户自定义UDF,并且实现了UDF的热加载。除此之外,我们也会记录用户在作业开发过程中的元数据信息,方便血缘系统的建设。●在作业保障方面,我们支持作业状态监控、异常告警、作业失败之后的自动拉起,作业自动拉起我们会自动选择可用的checkpoint版本进行拉起,同时也支持作业在多集群之间的切换。●在资源管理方面,我们支持平台多租户,每个租户使用namespace进行隔离、实现了不同事业部、不同用户、不同版本的Flink客户端隔离、实现了计算资源的隔离。●在数据安全方面,我们支持角色权限管理、表级别权限管理、操作审计日志查询等功能。

以上就是我们平台的功能,在赋能业务的同时,我们也还在快速迭代中,期望平台简单好用,稳定可信赖。

实时平台的批流融合

接下来说一下平台建设中的一些实践,第一个是批流融合。

我们先理清楚批流融合是什么?

批流融合可以分为两个概念,一个是Flink提出的批流融合,具体的理解就是一个FlinkSQL既可以作用于流数据、也可以作用于批数据,通过保证计算引擎一致从而减少结果数据的差异,这是一个技术层面上的批流融合。另个一概念是我们内部提出来的,那就是架构层面的批流融合。具体的操作手法就是通过Flink作业保证数据仓库ODS层的实时化,然后提供小时级别、分钟级别的调度,从而提高数据分析的实时化。

为什么我们会提出架构上的批流融合,主要我们看到行业发展的两个趋势。

●第一个趋势是数据集成的实时化和组件化,比如Flink集成Hive、FlinkCDC的持续完善和增强,这样我们做数据集成的时候就会变得非常简单。●第二个趋势是实时OLAP引擎越来越成熟,比如Kudu+impala、阿里云的Hologres、湖仓一体的方案。

这两个趋势让用户开发实时数据会变得越来越简单,用户只需要

分享 转发
TOP
发新话题 回复该主题