1
但是大规模、集中的数据存储也带来了新的隐私和治理问题。
集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。
它从各种原始的业务系统中提取数据,按照一定的规则进行数据转换,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为后续数据处理的基础。
- 有界:批处理数据集代表数据的有限集合
- 持久:数据通常始终存储在某种类型的持久存储位置中
- 大量:批处理操作通常是处理海量数据集的唯一方法
批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。
- 感知算法
感知算法主要采用自然语言处理的内容识别技术,包括基于关键词的内容识别、正则表达式的内容识别、数据分类脚本、文件元数据识别、指纹识别、文本分类、聚类等算法。
- 脱敏算法
常见的脱敏算法包括删除、替代、数值变换、加密、遮挡、空值插入、混洗等。
- 匿名算法
匿名算法通过概括和隐匿技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露。
— THE END —
杭州世平信息科技有限公司(简称“世平信息”),致力于智能化数据管理与应用的深入开拓和持续创新,为用户提供数据安全、数据治理、数据共享和数据利用解决方案,帮助用户切实把握大数据价值与信息安全。