摘要:1背景越来越多的企业希望汇集数据,实现数据驱动决策,优化业务敏捷性。 但是大规模、集中的数据存储也带来了新的隐私和治理问题。 集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。...
1
但是大规模、集中的数据存储也带来了新的隐私和治理问题。
集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。
它从各种原始的业务系统中提取数据,按照一定的规则进行数据转换,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为后续数据处理的基础。
- 有界:批处理数据集代表数据的有限集合
- 持久:数据通常始终存储在某种类型的持久存储位置中
- 大量:批处理操作通常是处理海量数据集的唯一方法
批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。
- 感知算法
感知算法主要采用自然语言处理的内容识别技术,包括基于关键词的内容识别、正则表达式的内容识别、数据分类脚本、文件元数据识别、指纹识别、文本分类、聚类等算法。
- 脱敏算法
常见的脱敏算法包括删除、替代、数值变换、加密、遮挡、空值插入、混洗等。
- 匿名算法
匿名算法通过概括和隐匿技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露。
— THE END —

杭州世平信息科技有限公司(简称“世平信息”),致力于智能化数据管理与应用的深入开拓和持续创新,为用户提供数据安全、数据治理、数据共享和数据利用解决方案,帮助用户切实把握大数据价值与信息安全。
这么swag的荣誉,你们有吗?
2018年数据安全与隐私保护大会精彩回顾
数据脱敏解决方案——金融行业
世平信息工会及党支部牵手杭州市数据资源局公益下乡
拓宽保密检查范围,管控涉密数据风险
关键信息基础设施安全风险评估解决方案
