网络空间安全:行业资讯、技术分享、法规研讨、趋势分析……

“游侠安全网”创建了网络安全从业者QQ大群(群号:1255197) ,欢迎各位同仁加入!有其它问题如合作等,请联系站长“网路游侠”,QQ:55984512


阿里云,挂了!哪个云能“永不宕机”呢?

2018-07-13 10:56 推荐: 浏览: 1,165 views 字号:

摘要: 引言: 他是隔壁老王 也是MC资深灾备工程师老六 他有话要说! 昨天,《阿里云,挂了》一文刷爆朋友圈,一大波吃瓜群众前排围观。 图:朋友圈刷屏截图 中国最稳定的阿里云,挂了!凌晨,阿里云发布故障说明公告,如下: 图:阿里云故障说明公告 竟然是因为“运维上...

引言:

他是隔壁老王

也是MC资深灾备工程师老六

他有话要说!

昨天,《阿里云,挂了》一文刷爆朋友圈,一大波吃瓜群众前排围观。

图:朋友圈刷屏截图

中国最稳定的阿里云,挂了!凌晨,阿里云发布故障说明公告,如下:

图:阿里云故障说明公告

竟然是因为“运维上的一个操作失误”……

纵观近年来,随着云计算的渗透、数据量的迅猛增长,越来越多的政府机构、企业等将自己的系统、数据搬上“云”。即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难。

简单盘点下:

2017年1月31日,Gitlab 因误删除引起服务中断18小时,并且无法完全恢复。

2017年2月28日,AWS因一条错误指令引起宕机。

2017年3月16日,微软Azure公有云出现超过8小时的存储可用性问题。

2018年1月18日,谷歌自动化失效引起停运了93分钟。

从此次阿里云故障,再到各家云服务商宕机事件,云主机也是主机,云服务器也是服务器,都有可能宕机。或是因为水灾、火灾等天灾,或是因为人为误操作、软硬件错误、断电等人为灾难。

谁能保证自家机器服务永不宕机?

没有人!

面对天灾、人为误操作等意外时,不论是传统的数据中心,还是云数据中心,都不能“独善其身”。数据中心需要建设容灾系统,以减少因意外发生导致的业务中断、数据丢失等严重后果。

在容灾平台的搭建中,除了灾备中经常提及的RPO、RTO之外,更应该关注“灾难完整性”

通常我们可以根据造成灾难的原因把它们分成两类:“天灾”和“人祸”。如地震、火灾、洪水、台风等等属于天灾的范畴;而人为误删除、恶意篡改数据等则属于人祸。容灾系统要求生产中心和容灾中心数据完全一致,一旦发生误删除或数据被恶意篡改,两边的数据都会受到影响。因此,要求容灾系统需要有比较全面的灾难完备性,能够预防各种灾难情况。

美创容灾系统是业界最早以业务系统为视角进行建设的容灾产品,颠覆了容灾建设重数据轻业务的理念,既能从根本上保证数据的一致性,又能降低灾难发生时的业务停滞时间。容灾系统从灾难完整性和容灾可用性为出发点,以SLA服务协议约束为限制,拥有全业务切换、一键容灾切换、误操作快速回退、桌面演练、容灾节点可查询等特点,最大限度满足容灾系统RTO需求。产品致力于保护业务系统的数据完整性和高可用性,广泛应用于运营商、金融、政府、公安、医疗、工商、社保、证券、制造业、交通、教育等所有具有容灾需求的行业。

美创容灾系统支持业务级容灾、数据级容灾、双活、两地三中心容灾,支持业务系统容灾到云上,云上业务容灾到本地。

图:美创容灾备份产品线

很多人以为,建设有容灾,就够了。当发生意外时,容灾体系就可以及时发挥作用。

事实上,搭建了容灾备份系统,这只是一个开始!我们还需要定期做好灾难恢复切换演练的工作。

作为一名灾备工程师,每年一项主要工作,就是协助客户做灾难恢复切换演练,涉及到金融、政府、制造业等多个行业,以保证客户数据安全,让业务不中断或者尽量减少中断时间。

多年经验总结,有效的灾难演练可以:

1、加强容灾处理能力、增强应急处置能力。

2、梳理信息系统可能会遇到的各种灾难,以及业务系统盲点。

3、规范应急恢复的操作步骤、内容详尽应包含演练切换说明。

图:老六本尊,没错了

最后,老六的“灵魂拷问”

你的系统有“灾备”保障了吗?

“灾备”上线后,定期做演练了吗?

联系站长租广告位!

中国首席信息安全官


关闭


关闭