基于Hadoop架构下医疗大数据安全的探究

医疗信息化已正式进入“大数据时代”,医疗大数据解决了海量数据的存储与检索问题,也催生了新的安全问题。如何更好地保护敏感信息及病人隐私,成为大数据时代医院管理面临的一大难题。但在利益的驱使下,医疗行业的数据安全已成为重灾区,各种数据泄漏事件时有发生。

2017年10月,一家医疗服务机构存储在亚马逊S3上的大约47GB医疗数据意外对公众开放,其中包含315363份PDF文件涉及15万病人的信息曝光。

2016年,深圳上万条产妇信息被爆泄露,产妇出院3小时被骗近万元。

2016年2月,某黑客入侵某部委医疗服务信息系统,该系统数据库内的部分公民个人信息被导出并贩卖。

2014年12月,海南卫生厅某系统漏洞导致数千万参保人员敏感信息泄露;江苏疾控中心某平台漏洞导致几千万敏感信息泄露。

大数据架构下的安全已成为医院信息化建设中亟待解决的问题!

Hadoop架构下现有的安全机制

Hadoop最初的设计目的并不是定位于数据库用来对数据进行存储管理,而是用于针对大量的非结构数据在分布式计算环境下对数据的计算,因此一开始并没有像传统的关系型数据库,设计相应的安全、加密、认证、授权等系列安全措施。

随着Hadoop在数据库领域的广泛应用,基于保障数据安全性的迫切需要,相应的安全机制相继被应用,目前大数据架构下的数据安全主要引入了KerBeros安全认证体系。

KerBeros安全认证体系广泛应用于分布式的client/server体系结构中,采用一个或多个KerBeros服务器提供鉴别服务。当客户端想要请求服务器上的资源时,首先由客户端向密钥分发中心请求一张身份证明,然后将身份证明发给服务器进行验证,在通过验证后,服务器就会为客户端提供所请求的资源。

▲KerBeros认证体系

KerBeros为通信的双方提供了很好的双向认证服务,也就是在客户与服务器之间构筑一道安全桥梁,要求用户每个向服务器提交的请求及其权限,都必须预先经过第三方认证中心服务器的认证后,才被允许执行。

KerBeros安全认证体系的不足

KerBeros很好的解决了通信双方的认证的问题,但KeBeros协议本身并不能完全解决网络安全性问题,例如:

(1) 主体必须保证他们的私钥安全,如果一个入侵者通过某种方式窃取主体私钥,他就能冒充身份;

(2) 对于用户的提权访问,没有有效的预防机制;

(3) 对于内部系统运维或开发人员的入侵行为无法提供有效的预防机制;

(4) 对于通过类似提供WEB公共服务入口的入侵,无有效的预防机制。

基于数据库审计的医疗大数据安全技术

为应对安全威胁,可采用基于深度报文解析和深度报文流检测机制的数据库审计解决方案,数据库审计系统是Hadoop自身安全机制之外一个良好的补充。

数据库审计系统可通过实时记录网络上的数据库活动,利用DPI/DFI技术将所有与Hadoop交互的报文深度解析重组,根据预先定义的规则进行细粒度审计,对数据库遭受的风险、违规操作行为进行不同级别的风险告警,同时对数据库的风险行为记录、分析和汇报,用来事后生成报告,帮助用户归根溯源,加强内部数据库安全建设,提高数据资产安全。

数据库审计系统能否对Hadoop架构下的数据安全起到有效防护,关键取决于报文解析重组能力的高低,如用户的越权操作。数据库审计系统在底层捕获到用户A访问了Hadoop对象B的报文,通过报文解析并与规则进行匹配,发现实际上并未分配给A访问B的权限,由此可以断定用户A访问对象B存在越权行为,但数据库自身安全机制因被攻破,无法做出预警,而数据库审计系统以独立的第三方系统运行,可直接从底层捕获报文分析,通过限定B的用户对象规则来预防越权访问,当发现有访问B的用户对象不在规则范围则立刻进行报警等相应措施。

数据库审计技术在Hadoop环境下已有多年的研究和实践,目前数据库审计系统已完好的支持Hadoop环境下的Hbase、Pig与Hive等工具的hdfs文件系统的访问,同时还支持通过hive-hwi、hive-view、HUE等UI工具通过浏览器等方式访问Hadoop,直接将报文解析还原成访问hdfs所用的类SQL语言进行细粒度审计,审计效果达到语义级。经实践证明,数据库审计系统已成为Hadoop大数据架构下行之可效的数据安全解决方案之一