
近日,2025 vivo 开发者大会在深圳国际会展中心圆满落幕。在今年的 vivo 开发者大会安全与隐私分会场上,vivo 为合作伙伴们举行了颁奖仪式,百度安全凭借大模型安全护栏再次获得 vivo 最佳安全技术合作伙伴奖项,连续三年获得 vivo 的肯定。

2025vivo 开发者大会安全与隐私分会场
此次获奖,不仅是对双方长期深度合作的认可,更是对百度安全在端侧大模型安全这一前沿“主战场”的技术先进性与实践价值的高度肯定。在于开源大模型,尤其是端侧模型的普及,带来了多层次、跨维度的安全治理挑战。由于模型在终端本地独立运行,其参数和结构面临被逆向提取的风险,容易导致核心资产泄露。同时,终端有限的算力与防护能力、压缩后模型对对抗攻击的脆弱性,以及运行中敏感数据易在内存残留等问题,都对端侧安全提出了极高的要求。百度大模型安全护栏正是为应对这些挑战而构建的全方位解决方案。

端侧大模型面临的安全挑战
百度大模型安全护栏:
全方位、多层次的纵深防御
作为大模型安全的“生命线”,百度大模型安全护栏为合作伙伴提供了从云到端的立体化防护能力。
全面的内容安全:针对复杂的文本与多模态内容风险,百度安全构建了从输入到输出的双重管控体系。在输入端,系统通过多轮对话改写与指代消解,提升风险识别的召回率。在输出端,系统依托高精度运营的“红线知识库”对敏感问题进行精准应答,并利用基于权威信源训练的安全大模型实现正向引导与驳斥,避免简单拒答,以满足监管要求。在多模态审核上,我们采用基于大模型统一审核的先进方案,在图文融合等场景下的审核效果已与传统专家模型持平甚至更优,有效应对了多模态组合带来的新型威胁。
为端侧量身打造:通过在终端部署轻量级的离线安全审核算子,在节省宝贵算力的同时,满足了监管对离线审核能力的要求,严格遵循国家标准,支持日志记录上传、策略动态更新、一键关停及 AI 功能禁用等应急管控能力,确保了设备在离线状态下仍具备安全治理与事件追溯能力。
敏锐的攻击检测:除了内容风险,百度大模型安全护栏还具备强大的高级攻击检测能力。通过基于语义的恶意意图识别和基于形式的角色扮演等模式检测,能有效防御隐蔽的提示词注入等攻击,为大模型的安全运行提供了更深层次的保障。

端侧大模型安全护栏
除了坚固的“防火墙”,百度安全还为合作伙伴提供了科学、高效的安全评测体系,确保大模型安全水位持续可度量、可优化。百度大模型安全评测包含覆盖通用及垂直场景的高质量评测数据集,以及一套高度自动化的评测系统。其核心创新在于利用微调后的“裁判大模型”实现自动化标注,能够为待测模型快速生成精准的评估报告,助力合作伙伴在模型上线前充分评估风险,持续优化安全策略。

2025vivo 年度最佳安全技术伙伴
未来,百度安全将继续携手行业合作伙伴,以技术创新推动大模型安全的健康发展。我们将在大模型安全领域持续投入,为各行各业提供更加专业、可靠的安全服务,助力人工智能产业的可持续发展,为构建更加安全可信的 AI 应用环境贡献力量。
