大数据开发是干什么的?
大数据作为时下火热的IT行业的词汇,随之而来的数据开发、数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据开发也应运而生。
大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于dataanalyst这种职位吧,而且现在HiveSpark-SQL这种系统也提供SQL的接口。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作的话对理论和实践要求的都更深一些,也更有技术含量。
数据开发的十条锦囊
开发类
Article1
修改表、删除表之前一定要先备份,防止“删库跑路”情况出现。
Article2
重刷数据一定要新建一个任务,特别是任务由于上有修改表结构导致的任务失败,新建任务,写入临时表进行数据核对后再刷新原任务运行后续依赖。
Article3
查看上下游指标间的关联关系,是否存在统计相加之后的值和前序依赖对应的不上。
Article4
Leftjoin之后的数据是否有重复,关联字段是否存在一对多的情况,是否符合业务预期。
Article5
进行聚合操作后,检查聚合后的数据值是否合理,比如sum求和后的值,找一些已有的数据做核对。
Article6
关联数据之前,先检查维度表,各维度的值是否有异常,比如null、空值、异常值等等。
业务类
Article1
忽略数仓对业务成功的支持,只