摘要: 人工智能准确识别数据本质 数据已经成为信息社会中最有价值的资产。如何在海量的数据信息中,快速准确的识别出隐藏在其中的本质和特征,是人们在数据应用和保护上需要解决的重要课题。因此,赛猊腾龙研发了具有自主知识产权的智能内容识别技术,能够识别各类文本、图片、视频、...
人工智能准确识别数据本质
数据已经成为信息社会中最有价值的资产。如何在海量的数据信息中,快速准确的识别出隐藏在其中的本质和特征,是人们在数据应用和保护上需要解决的重要课题。因此,赛猊腾龙研发了具有自主知识产权的智能内容识别技术,能够识别各类文本、图片、视频、音频等近千种文件格式的内容。其中内容指纹匹配、计算机视觉、语义分析等核心智能算法,可以综合应用在各个工程技术领域。
内容指纹匹配——文件指纹匹配
将待检测的内容或文档,与Word文件、PPT文件、PDF文件、各种源程序文件等非结构化储存的样本文档进行匹配,获得相似度,并以此判断其是否源自样本文档库。技术要点:该技术从样本文档中生成指纹特征库,然后以同样的方法从待检测文档或内容中提取指纹,将得到的指纹与指纹库进行匹配,获得其相似度。
文件指纹匹配的应用场景
涉恐信息查堵 公安机关使用该技术,样本训练已知的恐怖组织文宣材料,以便及时发现涉事人员在网上传播此类文宣材料(即使只摘抄了部分章节)。 源代码保护 高科技公司使用该技术,样本训练核心源代码,以便及时发现涉事人员非法拷贝源代码(即使只复制了部分模块)。 文件去重 客户使用该技术,在其数字档案馆或电子文档库里,发现大量的中间文档或重复文档,并对其进行标记或清除。
内容指纹匹配——精确数据匹配
涉恐信息查堵 公安机关使用该技术,样本训练已知的恐怖组织文宣材料,以便及时发现涉事人员在网上传播此类文宣材料(即使只摘抄了部分章节)。 源代码保护 高科技公司使用该技术,样本训练核心源代码,以便及时发现涉事人员非法拷贝源代码(即使只复制了部分模块)。 文件去重 客户使用该技术,在其数字档案馆或电子文档库里,发现大量的中间文档或重复文档,并对其进行标记或清除。
精确数据匹配的应用场景
客户数据或财务数据泄露 涉事人员并未发送整个客户或财务数据表格,只是企图发送数条数据记录,而且只包含部分列的信息。如果该信息是被企事业单位使用精确数据匹配技术指定生成特定列指纹的信息,该涉事人员的行为将会被发现并阻止。
语义分析
语义分析的范畴很广,方法也非常多,赛猊腾龙从以下两个方面切入,做出了大量研究和开发工作。 文本基本处理:这是语义分析的基础。主要包括中文分词、语言模型、特征权重、核心词、关键词提取等一系列的方法,其中中文分词是中文语义分析的基石。 高层语义分析:主要包括词向量和句向量分析、主题模型、深度神经网络以及文本分类等技术。
语义分析的应用场景
涉黄反动信息审核 高效识别涉黄、涉政及反动信息,帮助应用方精准鉴别并剔除不良信息,降低运营风险。 信息情感分析 准确分析信息中的情感倾向,帮助应用方把握用户好恶,及时进行调整优化。 文档标签提取 对文档内容进行分析后,将核心词语提取出来用以生成标签,帮助应用方高效管理文本。 文档自动分类 依据预设的分类体系对文档进行自动归类,帮助应用方高效管理和使用海量文本数据。
计算机视觉图章识别
利用计算机对图章进行处理、分析和理解,以发现和识别各种不同模式下文档中的图章。 技术要点:利用神经网络技术,识别待检测图像是否为图章;使用光学字符识别技术提取图章中的文字;最后利用文本模糊匹配技术鉴别为特定图章。
图章识别的应用场景
档案文件梳理 检查数字档案馆中的合同、文书等电子档案是否包含图章,对不合规的档案进行标记或清除。 敏感文件保护 识别机密文件上的“机密”、“绝密”或“秘密”等密级标识,判断该文件是否为敏感文件以及敏感级别,并予以相应保护。
计算机视觉——人脸识别
基于人的脸部特征信息进行身份识别的一种生物识别技术。 技术要点:基于大量人脸样本训练和机器学习提取人脸特征,找出人脸位置;利用神经网络模型训练个体人脸特征,再利用网络模型抽取个体人脸特征进行分类。
人脸识别的应用场景
智能家居 基于人脸识别系统的智能家居系统,如人脸识别门禁考勤系统,人脸识别防盗门等。 疑犯追踪 公安、司法和刑侦单位使用人脸识别系统和网络在全国范围内搜捕逃犯。 电子护照及身份证 人脸识别技术成为电子护照的首推识别模式。
计算机视觉——标志识别
对图片和视频中符合预定义的图像特征的Logo或标志进行识别。 技术要点:对指定的标志模板与待检测图片进行特征点匹配,即使标志被部分遮掩,也可以识别。
计算机视觉——物体识别
对图片和视频中符合预定义特征的物体进行发现和标识。 技术要点:使用业界最先进的神经网络模型,结合大量给定的训练样本,可以精准的识别出目标对象。
标志与物体识别的应用场景
安防系统检查 在人员聚集的地方,对公众随身携带的物品进行监控,识别危险品、违禁品等物体,发现潜在的危害公共安全的因素。 机密图片视频鉴别 检查图片或视频上是否含有机密目标。 涉恐目标检查 检查涉恐旗帜、枪支、标语等目标。 涉黄目标检查 检查人体特征物体。
计算机视觉——场景识别
综合利用各种识别技术对图像的场景进行识别。 技术要点:综合使用人脸识别、标志识别、物体识别、深度神经网络、决策树等多种人工智能算法按场景对图像文件进行分类,并产生图像的描述信息。
场景识别的应用场景
暴恐、集会场景识别 某监控摄像头24小时监控一个街口、商场口或政府机关门口。长期的监控录像分析表明,该场所通常不会同时出现10人以上的聚集。某天,摄像头所摄画面出现20人以上聚集(人脸识别),又发现疑拟刀枪物体(物体识别)或标语、旗帜(标志识别)等,集合其他人工智能技术,能够推断此时此地可能发生疑似群殴事件、暴动事件或群体上访、游行事件。