摘要: 5月28日下午2点左右,针对携程网站无法打开的事件在朋友圈被刷屏。刚刚开始是各种调侃,其中要求对运维人员好一点的呼声最高、传播最广,然后是携程老板悬赏100万解决问题,到了晚间央视财经网、腾讯网、新浪网、地方电台等主流媒体都发表了该事件的看法,其中也有很多的负...
5月28日下午2点左右,针对携程网站无法打开的事件在朋友圈被刷屏。刚刚开始是各种调侃,其中要求对运维人员好一点的呼声最高、传播最广,然后是携程老板悬赏100万解决问题,到了晚间央视财经网、腾讯网、新浪网、地方电台等主流媒体都发表了该事件的看法,其中也有很多的负面信息。总体来说这次的事件对携程的负面影响还是比较大,也引发了很多行业专家的思考。从5月29日起行业内的一些安全专家就发布了一些深度文章,其中有几个非常有指导意义。
1、阿里智锦《深入解析和反思携程宕机事件》则认为运维应该从黑盒运维走向白盒运维,是一个转型的最佳时机。
2、老王的《运维债务的剖析与解决方案》非常深入的从流程规范、工具与平台、安全,灰度机制、意识、环境管理、数据管理、架构等多个角度来探讨,然后结合最佳实践的方法论,从各个角度提出了解决方案。
3、另外也有很多做数据备份的同仁提到数据备份的重要性、应急响应的重要性。
对于这些文章,笔者都一一拜读过,也得到了很多的启发,如果企业能够按照这样的方法去思考改进,相信这种灾难性事件的几率会减少很多。
但是笔者心中始终还有一些疑问,这么大一个携程,难道其没有配置管理、变更管理等IT管理流程?难道其没有数据备份措施?安全防护措施还不够完善?没有应急响应机制?答案显然是否定的,笔者也与携程的安全团队、运维团队有过一些交流,其实携程内部也有非常多的思考,其每年也投入了巨大的资金用于IT运维和安全建设。其安全团队也经常性的组织安全沙龙、启动了漏洞奖励计划等,积极和业内安全专家进行交流互动。那为什么事故还那是发生了呢?我们能够从中还能够发现什么问题吗?
于是笔者认真学习、分析了各方面专家的观点后,发现有个环节真被忽略了,就是“监督和审计机制”。说白了就是我们的安全管理者是否对信息系统中的IT防护措施做到可见、可控、可追溯?我们的IT管理者不防思考一下几个问题,看看自己能否在短时间内回答这些出来。
1、防火墙、ips、WAF等安全控制策略是否有效、完整,上一次更新时间是多少?
2、应用和系统漏洞上一次修复时间点是?
3、有哪些业务系统和人可以调用访问数据库?其访问权限是否合理、最小化?
4、有多少内部人员、第三方人员可以接触核心系统?他们的开发、运维过程是否可视?
5、服务器的批量操作、高危命令执行是否可靠、经过不少于两方的确认?
6、关键服务器、网络设备的密码什么时候修改过?
7、数据备份的机制什么,上一次数据恢复演练是什么时间?
笔者相信有很多人是没法完整答复的,因为我们的管理者没有这样去想过,更没有定期去系统性的梳理过。甚至还有一部分管理者认为已经有了防火墙、防病毒、WAF、备份系统、审计系统等安全措施就是安全了。所以还是要有完善的“监督与审计机制”,那么怎么来建立呢?
参考PPT(人、技术、流程)方法论,我们的观点如下:
1、人的方面:
必须得建立独立的审计部门,实现IT建设部门、运维部门、审计部门的分离和相互制约。
审计部门需要配备有专业的审计技术人员,至少涵盖管理制度审计、业务流程审计等方向的人才。
审计人员也需要具备专业的IT技术,甚至审计人员技术水平要优于IT技术人员,否则审计就难以落到实处。
领导层也要足够重视审计部门的工作,将审计成果推广应用。
2、技术方面:
建立核心数据的访问环节审计措施,动态了解核心数据库、敏感文件等的访问人员、访问权限、流转情况。可采用专业数据库审计系统,建立敏感数据的访问行为模型,动态掌握模型的变更,发现异常。
建立运维环节的审计防护措施,掌握运维环节的人、设备、权限、操作过程等关键环节。可采用运维审计系统,实现运维人员实名制、双因子认证、最小权限控制、运维过程审计等,让整个运维环节可控、可追溯。
建立安全策略的有效性审计措施,可通过上述数据库审计、运维审计、流量审计等日志审计系统,及时验证防火墙等访问控制设备的策略有效性,也可以辅以安全渗透测试、模拟攻击等手段来验证。比如数据中心防火墙规定仅允许了192.168.1.100-110共10个IP地址访问数据库,那数据库审计系统上就可以设置相应的审计措施,来动态监测是否有查处这些IP地址范围的人来访问,如果有就进行实时告警。
建立综合审计管理平台,能够收集数据库审计、运维审计、系统、安全设备、网络设备等各个方面的审计日志,然后分类进行展示,帮助审计部门全面掌握各个环节的状况。
3、流程方面:
建立管理制度执行情况的审计,主要对公司的变更管理流程、配置管理流程、备份流程、密码修改流程、人员权限管理流程等进行执行效果的审计。因为各单位的方式不同,可能只能由人来进行操作,主要通过查看分析其流程执行。
建立应急演练措施,需要包括网络故障、黑客攻击、数据库故障、电源故障等多个方面,而且要定期进行真实演练。这一点上证券行业做的相对较好,拥有较丰富的经验,值得大家借鉴学习。
建立审计考核机制,包括审计人员自身绩效考核,以及审计部门如何制约IT建设部门、运维部门的机制。否则审计部门将永远不能受到重视,所有的审计措施也将失去意义。
总的来说,监督和审计机制确实需要引起大家的足够重视,要做好审计的工作,也有几个简单的经验可以参考:
先简后繁:先从领导认可的、重要性高的地方开始,比如数据库的审计、运维的审计、管理流程审计,然后逐步覆盖到综合日志关联审计、web业务审计、应急演练等。
定期开启专项审计:比如每个季度开展一次审计专题活动,比如数据库访问权限审计专题、第三方外包人员管理过程审计、备份恢复有效性审计等,这样不仅能够帮助IT部门发现问题,还能够起到很好的宣传效果,有利于审计部门自身的价值呈现和团队建设。
稿源:杭州安恒信息技术有限公司