基于暗数据发现的医疗数据安全治理

数据为王时代,数据安全保护已然成为众多医院信息系统建设的重中之重。数据安全的保护对象是数据,只有对数据具有一个基本认知之后才可以实施适当的数据保护措施。

但不知道数据在哪里、不清楚数据的含义、不了解哪些是重要数据或敏感数据……这些问题的普遍存在导致数据安全防护难以有效的开展。

针对这些问题,美创科技推出了基于暗数据发现的医疗数据安全治理方案,从认识数据出发,对医疗行业数据进行梳理,并基于安全角度对数据进行分类分级,将结果运用于医疗数据安全防护以及数据治理的开展,从而提高数据安全防护质量、更有效的发挥数据资产的价值、提升医院信息化建设水平。

数据安全治理概念的提出

Gartner在2015年提出了数据安全治理这一概念和相应的原则与框架,指出数据安全治理不仅仅是工具或产品的解决方案,而是基于战略、业务、应用、人员的安全和风险管理的有机整体。

需要特别强调的是,数据安全治理不应该从数据的加密、监控审计、防泄露、用户身份认证、用户行为管理等环节入手,而是应该从管理制度到工具支撑,从上层管理架构到下层技术实现的一系列适合组织数据生命周期的措施。

医院迫切需要进行数据安全治理

随着医院信息化的不断推进,医疗数据安全问题面临更大的挑战,从Verizon发布的数据泄露报告中可以看到,医疗行业数据泄露事件连续两年排名全行业第一。医疗数据安全风险主要包括人的安全风险、开放网络环境风险、勒索病毒的威胁、互联网通道和云医疗的风险、数据流动的风险。

医疗行业的数据安全风险具有特殊性,比如人的安全风险,医疗行业是全行业唯一一个内部风险大于外部风险的,系统管理员、DBA、医生和护士、系统维护人员,只要能接触到数据的都有数据泄露的风险。由此可见,医疗行业面临着严峻的数据安全风险,而医疗数据价值的广泛认知和相对脆弱的防御措施是造成医疗行业各类安全问题频繁发生的主要原因。

医疗行业存在大量暗数据

医院面临着的数据安全风险的现状使得数据安全治理成为首要而又迫切的措施。医院开展数据治理,首先需要解决4个问题:

  • 医院的数据在哪里?
  • 有哪些数据?
  • 有多少数据?
  • 有哪些是敏感数据?

事实上,医院中有85%的数据都是暗数据。所谓的暗数据是指组织在常规业务活动中收集、处理、存储的信息资产,但通常无法用于其他用途的信息资产。正是因为对于数据没有全面的认知,从而无法对于数据进行有效的保护。

暗数据发现的难点

受限于人、技术和工具,去厘清企业内部大量存在的暗数据,全面认知数据资产是非常困难的。

想不全:人天生就是健忘的

找不到:组织和人员不断变动

看不清:缺乏完整的数据字典

认不了:信息化的快速发展,系统越来越多、数据不断膨胀

从“想不全”到“找不到”、“看不清”最后“认不了”,通过传统人工的方式对企业的敏感信息资产进行梳理不仅工作量巨大,而且效果也不理想。

如何进行暗数据发现?

美创科技提出“通过数据去认识数据”的理念,因为数据本身就拥有自己的特征,比如数据的类型、长度、编码、数量、创建人、创建时间、最近一次数据的修改时间、数据的上下文等等。对数据特征利用的越充分,就能更全面的认识数据。

美创暗数据发现和分类系统,通过模型匹配、数据统计和机器学习等技术手段,首先将企业内部的暗数据进行阳光化,再将数据整理成分类有序、容易理解、有业务价值的数据。

暗数据发现流程

暗数据发现的流程分为四步:探查和定位数据扫描并发现数据梳理数据关系数据分类分级

第一步,探查和定位数据,也就是知道数据在哪里。

医院数据的分布是非常广泛的,常见的如数据库、个人电脑、文件服务器,伴随着数据中心而建设的大数据平台,以及远程医疗、移动应用催生的数据上云。

数据探查的关键在于是不是能找到全部的数据,这些数据发现出来是否准确。以数据库探查为例,比如医院有100个数据库,是否都能被发现,数据库的类型是否正确。

因此在通常基于端口扫描技术的基础上,我们还要基于流量解析技术,分析不同应用的流量包特征,构建强大的指纹库,从而精确识别不同端口上的相关应用,从而大大提高数据库探查的准确性。

第二步,扫描和发现数据,也就是知道有哪些数据。

医院的数据类型包括常见的结构化数据,电子病历等半结构化数据,还包括影响文件、日志等非结构化数据。首先系统会对元数据进行扫描及分析,确定数据的基础属性,如数据类型、长度、规模等等,在此基础上通过自然语言处理、特征识别等识别数据代表的含义,最后根据数据的上下文关系、数据规模等进一步识别表格的含义。

目前暗数据发现系统中内置了超过3000个数据标准,数据条目超过百万条,在此基础上形成多个行业的发现模板。例如医疗行业就内置了ICD-9,ICD-10等国内外数据标准。通过发现和分析的结果,我们可以清晰地查看到数据的基础元数据及含义,同时提供了数据匹配概率和随机数据样本的查看,以帮助用户更好的判断发现结果是否准确。

第三步,梳理数据关系。

患者到医院看一次病,涉及到挂号系统、就诊系统、医技系统、药品管理系统等众多的医疗系统,系统自身有复杂的流程,各个系统之间也会有复杂的关联关系;医疗数据的应用场景丰富,如互联互通、远程医疗、移动应用、临床科研等;加上医疗信息系统所涉及的厂商也比较多,梳理数据关系就变成了一项特别复杂的工作。

结合大数据分析、数据库元数据解析技术,我们就能依赖计算机的强大数据处理能力对数据关联关系进行轻松识别。在数据关系的展示上,系统通过可视化的数据关系地图、详细的表格关联E-R图等,为用户呈现出全方面的数据关系图谱,并支持用户对于系统识别的弱关系进行确认。

最后一步,进行数据分类分级

对数据进行分类分级,有助于机构厘清数据资产、确定数据重要性和敏感度,并针对性的采取安全防护措施,在保证数据安全的基础上促进数据开发共享。

数据分类分级的前提是对数据进行了发现和梳理,理清本机构的业务条线再进行业务的细分,并结合数据资产进行数据分类。

在数据分类的基础上,我们针对每类数据,通过影响对象、影响范围、影响程度,并结合数据体量、时效性等维度进行综合分析后对于数据进行定级。

数据敏感等级一般分为4级,从1级到4级敏感程度逐步提升,数据一旦发生泄漏所造成的影响及范围也相应提高,同时高敏感等级也意味着对于可访问或使用对象的要求更为严苛。

根据《信息安全技术数据安全分类分级实施指南》的要求,我们可以按照数据的进行划分,并在此基础上根据各行业属性进行进步一的细分。通常可以分为个人信息、重要数据、业务数据三大类:

个人信息:一般是指个人识别信息、个人财务信息、个人健康信息等,这些信息的泄露,将对人身安全、财富安全及生活安全带来影响。

重要数据:例如国家领导人的健康信息、重要的科研成果、各种敏感卫生统计信息,这些信息的泄露将直接影响国家安全、经济安全、社会稳定。

业务数据:是指涉及业务经营的数据,如患者的病案、医院的财务信息等,这些数据的泄露将给企业运行、商业竞争和企业声誉带来损害。

数据分级通常按照业务特征、安全要求、数据关联性、数据范围、信息公开要求等进行分级,常见的有三种分级方式:

第一种是按照等级保护的要求进行数据分级,分为1级-5级,随着等级的上升,所影响的对象和程度也在逐步提升。

第二种是按照风险防控进行数据分级,风险防控是基于风险发生的概率及风险的影响程度综合判断的一种分级方式。

最后一种也是最为常见的技术数据的敏感性进行的数据分级。分为极敏感级、敏感级、较敏感级、低敏感级。

医疗数据分类分级

根据相关标准文件和业务梳理,我们整理了一套医疗行业数据分类分级模板,包括个人属性、健康状况、医疗应用、医疗支付、卫生资源、公共卫生等6大主题分类和30多个二级分类,并对具体业务类型进行敏感等级划分。

整个暗数据发现梳理完成后,系统会提供一份全面、直观、多维度的数据分类分级报告以及明细清单,呈现数据分类和分级的分布和详细情况,并将结果应用到后续的数据安全和数据治理的开展中。