人工智能数据安全白皮书(二)

时间:2019-11-07  点击次数:   

  (一)人工智能与数据安全治理人工智能和数据安全治理互利互补,人工智能技术赋予数据安全治理智慧,数据安全治理为人工智能技术发展提供前驱动力。

  人工智能技术的发展为数据安全治理提供底层通用技术支撑,取代数据安全治理中大量重复性、长期性、粗略性人类劳动,使数据安全治理向自动化、高效化、精准化、智能化演进。与此同时,数据安全治理工作的开展能提升数据质量,促进数据安全流通和合规使用,为人工智能提供高质量数据集,从而为人工智能技术发展提供前驱动力。

  数据量的丰富为人工智能提供特征广泛的训练数据集,使人工智能模型更加精确。算力的提升使人工智能具备实时数据处理能力,支持在更大范围内及时监测和处理数据,并持续改进样本库,减少样本过少或漏报带来的运算误差。

  以神经网络为代表的的深度学习技术的发展可以大力提升数据分类分级精准度和数据内容识别准确率。例如,2012年神经网络算法只有5层,而2018年可以做到1200多层,在人脸识别领域最高可达一亿分之一的误识率。

  2018年李开复在《人工智能》一书中指出,人工智能将在15年内具备取代40-50%岗位的技术能力,主要集中在重复性劳动、有固定台本和对白内容的各种互动、不需与人进行大量面对面交流的工作领域。

  在数据安全治理领域中,传统的数据特征标注需要大量人力反复筛选和识别,人工智能可以取代人类自动对数据按照内容进行识别和添加标签。

  在网络安全防护方面,随着网络攻击手段的智能化升级,传统的依赖手动过程以及静态规则和签名的数据传输网络安全保护方法正在失效,人工智能技术可以通过自我学习自动更新安全规则,及时检测出新型网络威胁。

  数据资产不清晰、数据和知识难以关联、数据安全管理策略更新不及时是数据安全治理中常见问题。

  与传统数据安全治理相比,人工智能技术可通过精准分级分类自动梳理数据资产,基于统一的管理标准形成元数据,通过智能搜索、关联查询手段,形成数据关联关系图谱,对数据安全风险进行智能评估、量化和预测,辅助形成更合理的安全管理策略。

  例如,IBM的大数据安全智能系统实时运用人工智能技术实现了数据的智能高速查询、实时异常检测、自动确定事件根源并开展核查。

  腾讯的智能大数据治理系统基于基础知识库实现针对不同类型数据的自动感知、智能推荐转换等智能处理功能,人工智能技术使数据安全治理智能化。

  人工智能可以充分利用自然语言处理、图像识别、语音识别、视频处理等技术弥补传统数据处理耗时长、效率低等弱项,提升系统效率。

  例如人工智能技术可以对非结构化数据进行高效分析处理,将过去需要几周乃至几个月才能完成的工作缩短到几个小时之内完成,使数据安全治理高效化。

  华为将机器学习技术用于大数据分析平台,其在中国移动等多个项目的实践表明,数据治理效率提升超过40%,数据准备周期从月降为小时级,大数据分析应用上线周期从月降到周,同时高效数据治理也提升了数据质量,高质量数据占比提升40%以上。

  高质量数据集是提升人工智能算法准确性、模型合理性和产品先进性的至关重要的因素,只有当人工智能系统能够获取更为准确、及时、一致的高质量数据,才能提供更高效、更可靠的智能化服务。

  近年来,随着政府、企业对数据质量管理的重视,数据质量工具市场稳步增长。据Gartner发布的2018年数据库魔力象限报告显示,2017年数据质量软件工具市场达到16.1亿美元,比2016年增长11.6%。数据安全治理是提升数据质量的必要途径,是促进人工智能全面发展和应用的基础保障。

  2018年5月,Gartner发布数据安全治理(DataSecurityGovernance,简称DSG)框架,提出了从管理层到技术层、从机制体制到技术工具、全方位覆盖整个组织架构的完整数据安全治理链条。

  Gartner指出,直接从数据生命周期环节入手并不合理,需要先确定组织架构,建立管理问责制和决策权,对不同等级的风险制定不同的策略,再利用技术工具对数据全生命周期进行安全风险控制管理,最后对安全风险进行评估并回到第一步重新纠编,形成数据安全治理闭环。

  2018年5月,中国网信联盟指导下的数据安全治理委员会发布《数据安全治理白皮书》,提出一个通用的数据安全治理框架,将框架分为数据安全治理机制、数据全生命周期管理和数据安全技术部署三个部分。

  国内外主流数据安全治理框架的思路是相通的,均是以策略机制为入口,以数据全生命周期管理为基础,以技术工具为支撑的多方位治理体系。

  本白皮书借鉴国内外主流数据安全治理框架并结合人工智能数据安全应用经验,将人工智能在数据安全治理领域的应用分为数据安全策略制定、数据资产安全管理、数据活动安全保护、数据安全事件管理四个阶段。

  人工智能技术可应用于数据安全治理的各个阶段,但主要是促进细分领域应用优化升级,距离体系化的智能数据安全治理还有很大差距。

  人工智能数据安全治理细分领域包括数据安全策略、数据分级分类、数据质量管理、数据本体安全保护、数据活动网络安全保护、数据流转行为分析、数据安全风险评估、不良信息治理、互联网反欺诈、打击数据黑产等。

  传统的策略制定过程中用来辅助决策的日志数据和警报数量巨大,决策者难以快速处理,因此传统方式主要依赖人的直觉和经验。人工智能技术具备海量数据采集和分析能力,可根据训练模型进行自我学习并做出相应的判断,使管理更精细、决策更智能,因此智能决策系统应用非常广泛。

  基于人工智能的决策系统能大大提高数据安全治理策略的时效性和合理性,在数据安全风险管理策略、数据合规性要求、分级保护策略的制定等方面辅助管理者快速、科学、合理地制定策略,为数据安全治理提供智能化的解决方案。

  例如,2017年12月,百分点集团发布智能政府决策系统DeepGovernor,该系统汇聚行业专家知识,结合6大类50余种社会经济发展综合决策模型,推动政府科学决策水平和决策能力现代化,助推“数据治国”。

  一是在数据分级分类方面,可以通过应用机器学习、模式聚类、自然语言处理、语义分析、图像识别等技术,提取数据文件核心信息,对数据按照内容进行梳理,生成标注样本,经过反复的样本训练与模型修正,可以实现对数据自动、精准的分级分类。

  例如,我国网络安全初创企业思睿嘉得利用无监督机器学习引擎分析大量未经标注的原始文档集,自动按照内容进行主题梳理,并通过人工干预灵活调整语义相似度,获得满意的聚类效果,从而实现对数据的精准分级分类。

  浙江省旅游信息中心联合厦门杜若科技公司开展了浙江省旅游度假区信息的数据治理试点,将旅游大数据纳入人工智能系统,对结构化数据进行开放式训练,对数据进行分级分类并实现基于自然语言的数据管理。

  二是数据质量管理方面,在开展数据质量核查过程中,人工智能技术与传统根据预置规则进行核查的方式相结合,可以仅针对少量核心核查规则,利用机器学习算法进行深度分析,定位数据质量原因、预测数据质量问题,形成知识库,进一步增强数据质量管理能力。

  例如,谷歌将人工智能引入医疗行业,通过重塑医疗数据层级为医疗巨头提供更高质量的结构化数据,创建新数据管道,助力医疗健康数据基础设施建设。

  亿信华辰的数据质量管理平台EsDataClean,Informatica的数据治理工具DataDirector以及IBM的通用数据治理产品StewardshipCenter等均在业界处于领先地位,通过人工智能技术的使用极大减少了人力投入和过程干预,提升了数据质量管理效率,也为后续的模型训练提供了更多高质量数据。

  3、数据活动安全保护一是数据本体安全保护方面,包括数据脱敏、数据防泄漏、数据加密等。

  数据脱敏方面,在数据分级分类的基础上,结合数据合规性规则智能生成脱敏特征库,并与敏感数据识别智能关联,实现智能发现和自动脱敏,有效降低敏感数据泄露风险。亚马逊的智能识图工具Rekognition可以辅助医务人员进行医学图像脱敏。

  数据防泄漏方面,加州伯克利大学团队运用人工智能技术开发了一款手机APP,能够自动扫描手机相册内的裸露照片,改为加设密码存在该APP中,并进一步从相册与云空间删除,彻底防止私密照片外泄。

  数据加密方面,谷歌大脑成功开发出两个独立的人工智能加密算法,不但能够防范第三方破解,而且还能够自我学习,破解其他人工智能加密算法。

  二是数据活动网络安全保护方面,基于人工智能的网络安全防护手段相比传统基于静态规则的方法具有持续进化能力。

  新威胁的产生不断为训练集加入新的数据,通过人工智能算法和模型调优,可以快速查阅每个可疑文件数以百万计的特征,智能识别最轻微的代码冲突;对内外部网络流量中的元数据进行关联分析,实时检测异常流量;利用庞大的关联处理能力并行监测海量数据点,实时生成风险预测,发现并阻止设备或网络攻击。

  恶意代码分析方面,中科院软件所提出基于文本分类技术的恶意代码检测工具“飞鼠”系统,能够对大量恶意代码样本进行及时、高效和准确检测,同时也具有一定的泛化能力,能够检测一定的未知样本。

  大连市公安局提出了基于人工智能技术的恶意代码变种检测技术,将恶意代码映射为图像,提取图像特征,建立人工智能模型,利用恶意代码家族图像样本集训练检测模型,能够快速识别恶意代码变种及其家族,有效提高了检测效率和准确率。

  边界安全防护方面,2018年11月,华为发布业界首款智能防火墙,内置基于人工智能的高级威胁检测引擎,支持加密流量免解密威胁检测,通过联动云端为企业提供智能化的网络边界防护,威胁检出率达到99%以上。

  2019年4月,新华三集团发布人工智能防火墙业界新品,采用高性能的双GPU加双CPU的人工智能硬件架构,提供每秒万亿次的运算能力,结合数十种人工智能算法的软件开放平台,实现全面感知、深度学习和智能防护,改变了传统安全运维难、发现慢和响应差的状况。

  入侵威胁监测方面,腾讯安全团队基于真实运行行为、系统层监控和人工智能芯片检测,利用神经网络算法和算法模型云端训练自主研发了腾讯TRP-AI反病毒引擎。该引擎具有抗免杀、高性能、实时防护、可检测0Day病毒等优势,可自动化训练,大大缩小了查杀周期和运营成本,可使病毒检测覆盖率达到90%,检测准确率高达99%。

  2017年,IBM发布用于网络安全领域的“沃森”人工智能系统,能够提供云和端威胁的感知应对能力。

  三是数据流转行为分析,通过自然语言处理、机器学习、聚类算法对采集的基础数据进行行为建模,多维度勾勒出用户行为特征,形成用户画像知识图谱,实现智能化用户行为分析。

  同样,【便民资讯】伊泰煤制油招聘14人、久泰能源招聘22人、便民信息!通过人工智能技术也可以对数据传输行为进行智能统计和关联分析,绘制数据流转动态图谱,有利于跟踪敏感数据走向,分析数据安全态势。

  例如,荣之联推出的智慧商业情报大数据平台依托人工智能技术建立用户行为数据计算模型和情感交换计算模型,通过用户行为数据流转分析来预测用户行为可能性。

  四是数据安全风险评估,经过训练后的神经网络算法能够解决具有相似特点的风险评估问题,通过对风险因素的学习,可以自动实现从输入到输出的复杂映射关系,对优劣性受多种因素综合影响的事物作出合理的综合评价,从而减少传统专家评估过程中主观分数的片面性影响。例如思维世纪推出基于人工智能技术的数据安全评估解决方案,对数据全生命周期中各个环节的数据脱敏状态、应用通道、使用行为等因素进行智能关联分析,得出数据安全风险评估结果,并根据评估结果进一步优化数据安全管理策略。

  人工智能技术由于其普适性、自学习、高效性等特点能够在数据处理环节应对更加复杂的数据结构和数据环境,得出更加严谨和稳固的模型和推演结果,完成更自主的信息捕捉、更智慧的分析判断和更智能的服务。在数据安全事件管理中,利用人工智能技术对网络中的数据进行自动爬取和深度挖掘分析,能够提高网络中敏感数据、有害信息的自动发现和识别效率,实现数据安全事件智能监测和预警。

  结合用户行为画像和数据安全态势图谱,人工智能技术能够对数据安全事件的源头进行追溯,从而辅助管理部门采取相应措施实现快速处置,显著提升数据安全事件的管理水平。不良信息治理方面,百度推出的“人工智能+广告打假”仅2018年上半年处理了145.4亿条有害信息,其中占比居前两位的是淫秽色情类和赌博类,分别为51.04%和16.63%。2019年阿里巴巴推出“人工智能谣言粉碎机”,通过分析用户画像、与知识图谱里的权威知识库作匹配验证等步骤实现对新闻内容的智能可信度识别,在特定场景中的准确率已达到81%。中国信息通信研究院基于所积累的标准样本库,开展对淫秽色情、涉恐涉暴等违法信息识别的建模训练,初步实现基于人工智能技术的不良信息检测能力,识别准确率在97%以上,比传统方式提升了17%,识别速度是传统方式的110倍。2018年2月,英国内政部宣布了一项新的智能内容识别工具,利用人工智能技术在线自动检测互联网平台上的宣传内容,精确度达到99.995%。

  互联网反欺诈方面,我国人工智能初创企业第四范式开发的“人工智能+金融”服务平台,构建了亿级别的高维机器学习模型,能够高效、精准识别欺诈交易,智能反洗钱。该平台在某银行线C交易欺诈防控准确率达83%,较传统专家规则方式提升316%,比专家规则多识别欺诈交易58.8%,降低30%的交易案宗审核成本。阿里自研的“钱盾”反诈预警系统,利用人工智能技术助力警方预警拦截诈骗事件,9个月内劝阻8.7万人,止损6.9亿元。中国信息通信研究院使用人工智能技术多维度分析不同的可疑特征,有效实现了互联网诈骗行为的识别和预警,其中涉诈网站识别准确率达到95%,涉诈账号识别准确率达到90%,仿冒APP识别准确率达到92%。

  打击数据黑产方面,腾讯守护者计划基于长期积累的人工智能技术能力,引入多维度的动态验证机制对抗数据黑产。运用人工智能技术协助警方刑事打掉“快啊答题”、“光速打码”两个团伙,这两个团伙是国内最大的利用人工智能破解识别验证码的打码黑产团伙。

  总之,人工智能技术已在数据安全治理的细分领域开展诸多应用,但是人工智能技术并不是万能的,构建可管、可控、可信的数据安全治理技术支撑体系仍面临诸多挑战。

  欧洲市场研究和咨询服务公司kbvresearch2017年发布市场研究预测报告指出,数据安全市场将每年以18%的复合增长率发展,估计2023年将达到209亿美元;若以在2023年达到全球20%的GDP来看,中国市场规模将达到大约400亿元人民币,未来人工智能在数据安全治理领域仍存在很大应用潜力。

  然而,同样要理性认识到,人工智能作为一项新兴的底层通用技术,并不是为某一项应用特制,因此并不能解决数据安全治理的所有难题。

  例如在数据运营活动的网络安全防护技术手段方面,人工智能技术并不适用于某些APT攻击的场景,有些APT攻击针对性强,攻击行为的成功往往是孤例,不足以支持海量攻击样本库生成,传统方式在此类场景仍然十分有效。

  数据安全治理是一个全球性的话题,除人工智能技术以外,网络环境安全防护能力的升级、数据安全治理政策和规则的制定等都影响数据安全治理的效果和能力。

  当前,世界主要国家均在人工智能发展战略、伦理规范方面提出人工智能数据安全相关规划和基本原则,但相关法律法规还不够细化完善,安全技术研究方兴未艾,安全标准也处于制定初步阶段,人工智能数据安全治理工作任重道远。

  以上为千家智客为大家分享的人工智能数据安全白皮书(二)的内容介绍,若想获取全部内容,可关注千家智客微信公众号,回复:“白皮书”即可下载本方案文件。还在等什么呢?赶紧关注起来吧!

  2019年第二十届中国国际建筑智能化峰会将于2019年10月30日至12月11日期间,分别在北京、上海、广州、深圳、杭州、武汉、成都、西安八大城市举行。本届峰会将聚焦“AIoT赋能建筑、人与空间”,届时将携手全球顶级智能化品牌,共同分享人工智能技术在城市、建筑与家庭中的最新应用,全面解读人工智能、物联网与智能化产业链的最新发展趋势。

  邮箱:、(内容合作)、463652027(商务合作)、645262346(媒体合作)我知道了×个人登录