AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系

机器之心 2025-07-19 14:00

本文的共同第一作者为新加坡南洋理工大学博士后研究员李一鸣博士和浙江大学区块链与数据安全全国重点实验室博士生邵硕,通讯作者为李一鸣博士和浙江大学秦湛教授。其他作者包括:浙江大学博士生何宇,美国马里兰大学博士后研究员国珺峰博士,新加坡南洋理工大学张天威副教授、陶大程教授,美国 IBM 研究院首席研究科学家 Pin-Yu Chen 博士,德国亥姆霍兹信息安全中心主任 Michael Backes 教授,英国牛津大学 Philip Torr 教授,和浙江大学计算机科学与技术学院院长任奎教授。


你是否也曾担心过,随手发给 AI 助手的一份代码或报告,会让你成为下一个泄密新闻的主角?又或是你在网上发布的一张画作,会被各种绘画 AI 批量模仿并用于商业盈利?


这并非危言耸听,而是每个 AI 用户和从业者身上都可能发生的风险。2023 年,三星的一名员工被发现将公司的一份机密源码泄露给了 ChatGPT;同年,意大利数据保护机构也因担心当地居民的对话被用于境外 AI 训练,一度叫停了对 ChatGPT 的使用。随着生成式 AI 的全面普及,越来越多的用户在日常工作生活中使用 AI、依赖 AI,这些真实的事件,为每一位身处 AI 浪潮的用户和从业者敲响了警钟。


这揭示了一种深刻的变革:在 AI 时代,尤其是生成式 AI 的时代,数据不再只是硬盘中的静态文件,而是贯穿 AI 训练、推理、生成的整个生命周期中的「流体」,传统的数据保护方法(如文件加密、防火墙等)已无法应对 AI 场景下的数据保护挑战,对于用户和 AI 从业者而言,迫切需要一个全新的认知框架来全面认识生成式 AI 时代的数据保护问题,来应对数据保护挑战。


在(生成式)人工智能时代,当我们谈论数据保护时,我们在谈论什么?为了回答这一问题,来自浙江大学区块链与数据安全全国重点实验室、南洋理工大学、马里兰大学、IBM、德国亥姆霍兹信息安全中心、牛津大学的研究者们近期发布了前瞻论文《Rethinking Data Protection in the (Generative) Artificial Intelligence Era》,旨在通过通俗易懂的语言,为广大科技群体提供一个新颖的、系统性的视角看待人工智能时代下的数据保护问题。




在生成式人工智能时代

哪些数据需要被保护?


在生成式人工智能时代,数据保护的范畴已远不止传统对静态数据的保护,而是要保护贯穿于整个以模型为中心的生命周期中的各种不同类型的数据,包括训练数据集、人工智能模型、部署集成数据、用户输入和人工智能合成内容。




在生成式人工智能时代

我们应该如何保护数据?


为了系统性地建模 AI 时代的数据保护问题,本文提出了一个全新的数据保护分级体系,将数据保护的目标由强到弱的顺序分为四类:数据不可用、数据隐私保护、数据可溯源、数据可删除。该分类法旨在平衡「数据效用」与「数据控制」的关系,为复杂的数据保护问题提供一个结构化的解决方案,进而指导从业者和监管者根据实际情况寻找一个更好的效用 - 控制平衡。




现实意义与未来挑战


本文提出的数据保护体系对理解现有技术和进一步推动当前的全球法规和应对未来的挑战,也提供了极具价值的新兴视角。


分析现有数据保护技术的设计理念:本文也介绍了针对上述四个保护级别的一系列设计理念和相应的代表性技术,为现有方法的应用和后续方法的设计提供了统一的视角和框架。


审视全球法规与治理:本文列举了当前全球代表性国家和地区关于数据保护的法律法规,用分级模型的新 “标尺” 审视现有的治理方案,分析了不同地区治理的特点、偏好和不足。


数据保护的进一步探讨和前沿挑战:除了审视当前的治理态势,本文进一步讨论了数据保护的跨学科意义和指出了一些数据保护的前沿挑战。



图片

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号