8月5日,国家安全部发布安全提示文章,指出人工智能训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。
数据投毒的定义与影响
数据投毒是一种通过在训练数据中植入恶意样本或修改数据以欺骗机器学习模型的方法。攻击者可能植入具有误导性标签或特征的数据,扭曲模型的学习过程,导致模型在部署和运行时产生错误结果。研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。
有几个典型案例我们可以看一下。
首先是2016年发生的微软Tay聊天机器人事件。微软当年在Twitter发布人工智能聊天机器人Tay,旨在通过互动学习用户语言。然而,大量用户(包括恶意水军)以种族主义、性别歧视等攻击性语言与Tay互动,导致其迅速模仿并发布仇恨言论。微软被迫在上线16小时内关闭该服务,事件凸显了AI模型直接从社交媒体学习时易被恶意操纵的风险。
还有发生在2023年的“龙葵”数据投毒工具。芝加哥大学研究团队开发名为“龙葵”(Nightshade)的工具,允许艺术家在数字作品中嵌入人眼难以察觉的像素扰动,污染AI训练数据。当未经授权的生成式模型使用这些“投毒”图像时,模型会学习错误关联(如将狗识别成猫),导致输出失真。该工具既被用于反击AI侵权,也可能被黑客滥用攻击商业系统。
专家建议与防范措施
第一,监管政策。坚持以算法治理和数据治理为核心,细化标准,对高危场景特别立法;推动专业机构生产的真实新闻数据纳入大模型语料库,提升语料库质量。
第二,技术反制。首先是数据验证与清洗,需要建立严格的数据审核机制,优先采用可信来源的多样化数据,剔除可疑样本;其次是模型鲁棒性增强,引入数据增强(如添加扰动样本)和对抗训练技术,提高模型对异常数据的容忍度;最后是溯源规范,实现模型、设备、人员的精准溯源,从源头管控生成式AI内容。
第三,舆论应对。建立多主体合作的第三方机构,定期发布AI技术趋势白皮书,同时加强事实核查,构建独立免疫屏障,净化网络内容生态。
行业呼吁与未来挑战
人工智能的三大核心要素——算法、算力和数据中,数据作为“原料”直接影响模型性能。高质量数据是提升AI准确性和可靠性的关键,而污染数据则可能引发系统性失效。
科大讯飞董事长刘庆峰指出,生成式AI的“幻觉数据”可能形成“数据污染-算法吸收-再污染”的恶性循环,建议研发深度鉴伪技术和平台,定期清理污染数据。
国家安全部提示,AI技术的快速发展需平衡创新与安全,企业应强化数据权限管理,政府需完善分级监管体系,共同应对数据投毒等新型安全威胁。
