日前,微博网友大佬坊间八卦爆料,顺丰科技数据中心一位高级工程师误删除生产数据库,导致某项业务无法使用并持续分钟。顺丰根据公司相关规定,辞退工程师邓某,并在顺丰内网通报。
事情经过
邓某工程师是顺丰科技IT数据中心应用交付技术部互联网产品运维组的IT运维开发高级工程师。在接收到变更需求后,邓在操作过程中,错选了RUSS数据库,打算删除执行的SQL。在选定删除时,因其操作不严谨,光标回跳到RUSS库的实例,在未看清所选内容的情况下,便通过delete执行删除,同时忽略了弹窗提醒,直接回车,导致RUSS生产数据库被删掉,这是非常严重的安全事件了。
因为工作人员的不严谨操作,导致数据丢失,OMCS运营监控管控系统发生故障,使该系统上临时车险发车功能无法使用并持续了约分钟,给顺丰业务带来严重影响。
事故原因分析
事故出来之后,网上对于这一事件有一些原因分析,总结起来有如下几点:
1)黑客攻击。黑客利用系统存在的漏洞,侵入系统,非法删除数据库。
2)硬件故障。如果系统中数据库服务只部署了单个节点,当这单个节点挂掉之后,整个数据库就无法提供服务了。也就是说数据库没有备份,这对于重要数据系统来说是严重的缺陷。
3)软件缺陷。数据库服务属于软件系统的一种类型,当软件存在Bug的时候,也往往会造成安全问题。
4)运维失误。数据库往往是由运维人员管理的,而运维人员由于多种原因可能会发生一些操作失误,比如长时间疲劳工作、责任心差、对公司不满存在蓄意破坏等等,这些都可能造成数据的丢失。
5)自然灾害。类似于机房断电以及其他可能的自然灾害导致机房数据无法恢复。
这些年删过的数据库
其实删除数据库这种神操作已经发生很多次了,最近几年发生的著名数据库删除事件有:
年2月,GitLab的一位系统管理员在给线上数据库做负载均衡工作时,遭受了DDoS攻击。在阻止了攻击之后,运维人员发现了数据库不同步的问题,便开始修复,在修复过程中,错误地在生产环境上执行了数据库目录删除命令,导致GB数据被删成4.5G,GitLab被迫下线。
年6月,一家荷兰海牙的云主机商verelox.