当个人的生活、工作,甚至政府和企业的运转、社会的发展都被数据要素所影响和改变时,数据安全毋庸置疑地成为了首要考虑的话题。IDC认为,在2024年,数据安全将是全球网络安全最应该被重视的热点技术之一,但仅有不到一半的组织表示,已经系统地对所有数据资产实施初步的数据分类。
数据安全为什么越来越难?
第一个难点在于,大模型应用伴随着大量来源复杂的数据应用,产生了许多相关的暴露面、漏洞,这类风险隐藏在海量数据流转之下,难以被及时察觉。其次,人工智能技术的飞速发展也加剧了数据黑产的问题,攻击者也开始使用人工智能技术来加快非法获取数据的进程。
基于以上种种,构筑起有效的数据安全防护体系已然成为了当下数字化建设者们最紧急的安全“To Do List”。
AI时代,数据安全的“传统解法”正在失效
大模型已经落地于各行业的数字化生产中,不仅有大量不同来源、多样化的数据流转于应用的各个环节中,数字化生产和大模型训推中也在实时产生大量数据,数据的日益活跃让安全边界正在一步步被打破,潜在的暴露面和安全风险逐渐增多。与此同时,更多的攻击者将AI技术用于数据黑产、数据投毒等,无孔不入的自动化攻击行为让数据安全所面临的威胁愈加复杂和难以防守。
如今,传统模式的数据安全防护所面临的瓶颈主要集中在两个方面:
作为数据安全的基础能力,数据的发现和分类高度依赖人工矫正,不仅需要耗费大量人员和精力,还只能识别特定数据类型、对静态数据库表分类分级。在数据不断流动且类型多样的今天,传统模式的效率极低且有很大的局限性。
相比于网络安全的攻击研判,数据安全更贴近业务且没有特别显性的攻击特征,因此数据安全的风险是极难检测的,告警的研判也比网络攻击研判复杂数十倍。
在“传统解法”逐渐失效后,数据安全找到了新的思路——
IDC认为,应该探索和利用GenAI技术提升数据安全解决方案的智能化水平,例如通过GenAI技术增强安全产品在规则制定、策略更新、数据发现与分类、敏感数据保护等方面的能力。
新一代数据安全,需要以魔法打败魔法,用AI来打败AI带来的数据安全风险。
大模型×数据安全,新一代数据安全已到来
大模型为数据安全注入了新的防护力量,在面对极难处理的数据分类分级和数据安全风险检测研判两大难题,大模型赋能的数据安全都能更高效地应对。
在数据分类分级领域,IDC认为未来有“智能化程度加深”“动静结合成为常态”“分类分级平台化”三个趋势:
- 智能化程度加深:自动化分类分级已成为当前数据分类分级工具必不可少的能力,随着大模型的出现以及应用场景的不断落地,必然会朝着更加智能化方向演进
- 动静结合成为常态:数据不再是一成不变,实时的动态的数据在使用、加工处理过程中都存在未知性,未来需建立动态数据分类分级机制
- 分类分级平台化:数据分类分级平台将与数据加密、数据脱敏、访问控制等数据安全技术更紧密地结合,实现企业整体数据分类分级的安全管理。
大模型赋能下的数据分类分级,正在往这三个趋势不断靠拢。基于强大的理解能力和大量训练,大模型可以在数据信息与分类样例不充分的前提下,结合上下文对数据的真实含义进行拟人化的推理。即便在面对复杂含义和多样化的数据类型时,也能表现出远超传统人工打标分类的效率和准确率。除此之外,大模型遥遥领先的大数据处理能力也让分钟级调查任意数据成为现实,政企单独可以实时定位、追踪、掌握数据的使用情况,更适配AI时代“动静结合”的数据分类分级需求。
而在另一个更为棘手的风险检测难题上,由于安全边界模糊、数据流动性大,新一代的数据安全风险检测思路则需要摒弃过度依赖边界防护、缺乏智能化分析的传统做法,通过人工智能技术来达到媲美“人”的研判思维来关联异常行为的身份信息、上下文信息、历史行为等。
基于强大的泛化能力和高效的数据处理能力,大模型可以通过提前训练形成的安全规则库对已知安全风险场景数据内容、数据访问/操作/流转情况等进行实时安全分析,感知数据安全合规状态;对未知安全风险场景的行为或操作,通过机器学习、统计分析、特征关联分析等方法建立动态模型,结合身份信息、过往告警等做出准确、高效的分析研判,大大提高针对数据安全风险的检出率和研判的准确率。
IDC在调研中发现,众多数据安全厂商已经在运用机器学习、深度学习等技术来辅助进行敏感数据发现、数据分类分级、威胁分析等工作,数据安全治理的效率和准确性将进一步提升。其中已经有不少真实有效的落地应用,比如深信服最新发布的安全GPT4.0数据安全大模型,基于强大的跨行业数据识别能力和文本数据理解,只需一键即可完成动静态数据分类分级和流动可视,准确率高达90%,效率提升40倍。针对隐蔽性高、非常像正常业务行为的风险,可以实时监控异常行为、调查异常上下文信息,并通过对该用数主体的更多异常行为进行关联分析后进行风险的综合研判。在数据泄露、数据滥用、违规数据出境和超范围处理数据四大典型攻击场景中,安全GPT的检出率高达90%,准确率高达70%。
总体来看,大模型赋能的数据安全在分类分级上更智能高效,在安全风险检测和研判上更敏锐、更准确。可以预见,当我们在“To Do List”上将“AI赋能数据安全”这项任务划掉后,数据安全将从被动防御转变为一个主动、智能、适应动态变化的生态系统,帮助我们进入数据流动和使用安全、自由的信任时代。