杭州江阴科强工业胶带有限公司

业务挑战

数据安全与隐私保护

大模型在训练、精调、推理以及一些行业共建的过程中，如何解决敏感数据的传输、使用以及共享时的数据安全与隐私保护的问题。

模型保护

大模型在传输、部署、存储、以及访问过程中，如应对模型窃取、模型篡改、对抗样本攻击等威胁，如何建立安全有效的访问控制机制。

AIGC内容合规

针对用户输入内容以及大模型生成内容，如何解决违法违规、偏见歧视、违反社会价值观、侵犯隐私、恐怖/极端主义等安全合规问题。

大模型业务运营

在大模型运营阶段如何解决账号安全、AIGC盗爬、垃圾提问、投毒反馈、频率突破、接口攻击等问题。

方案介绍

从大模型全生命周期视角出发，方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战，提供全套安全产品与服务，助力企业构建平稳健康、可信可靠的大模型服务

核心服务

数据安全与隐私保护

模型保护

AIGC内容合规

大模型业务运营安全风控

大模型内容安全评测

数据安全风险

• 传输截获风险：在使用非私有化的预训练、精调、推理服务时需要大量跨主体/部门数据，在传输过程会产生数据被截获的风险；

• 运营方窥探风险：精调与推理阶段所用敏感数据，存在被大模型运营机构窥视和收集的风险；

• 模型记忆风险：被精调过或支持实时更新的模型，若被泄露或共享使用，存在模型记忆和记忆内容泄密风险。

数据安全方案

• 横向联邦大模型解决方案：百度安全可同时支持公有云、私有化两种场景下的横向联邦软件方案，使得数据不出域的情况下，完成大模型的预训练、精调，解决数据传输过程中被截获的风险；

• 可信执行环境软硬一体机解决方案：百度安全通过完全硬件化的CPU+GPU保护方案保障模型和数据安全的方式，解决大模型在部署阶段面临的模型记忆泄露以及公有云场景下数据隐私保护问题；

• 同态密码学软件解决方案：针对大模型在公有云推理阶段数据隐私保护问题，百度点石隐私计算团队提供同态密码学软件解决方案，仅需要在客户端安装一个插件，利用同态密码学技术进行密态数据计算。

业务痛点

• 语料数据管理：面对多渠道收集珍贵语料数据，如何实现高效的数据管理，防范模型原始语料数据泄漏，提高语料数据加工效率；

• 模型资产保护：大模型文件是企业核心数字资产，如何防范大模型文件在训练、推理、微调等环节的模型文件泄漏风险。

解决方案

• 大模型语料数据安全管理：提供整套语料数据安全管理方案，包括元数据管理、分类分级、流转审批、数据鉴权、行为审计等多项能力；

• 大模型资产全流程保护：采用领先的Baidu Ai Realm技术，为大模型全生命周期提供多方位安全防护措施，覆盖模型训练、模型流转、模型推理、模型微调以及私有化部署等各环节。

内容合规问题

• 用户prompt内容：用户输入prompt内容明显存在如色情、涉政、涉恐、涉爆等违法违规的引导词及图像；

• 大模型生成内容：围绕大模型生成内容，具有一定的随机、不可控的情况，容易出现违法违规内容、违反社会价值观、歧视偏见、隐私泄漏、内容侵权等诸多风险。

内容合规安全方案

• Prompt审核与改写：对于用户输入内容提供多维度内容审核能力、并针对恶意诱导大模型生成违规内容的Prompt进行改写并做毒性提示；

• AIGC多模态内容审核：为大模型生成内容提供包含违法违规内容审核、违反价值观、存在偏见歧视、内容侵权等风险内容过滤服务；

• 大模型内容合规评测：依据七部委联合发布的《生成式人工智能服务管理暂行办法》，提供内容安全评测和攻击指令评测，对大模型做定期评估。

业务运营风险

• 大模型前置业务环节：大模型业务运营过程中出现的账号安全问题、权益侵占等业务安全问题；

• 大模型交互环节：用户提问行为过程中也容易出现AIGC盗爬、垃圾提问、投毒反馈、频率突破、接口攻击等问题。

业务风控方案

• 业务安全防护体系：依托百度安全智能风控解决方案，可以在大模型前置运营阶段（如：用户注册、登录、权益申请等环节）、以及大模型交互环节（如：用户提问环节、回答内容反馈等环节），结合用户行为、终端环境、网络特征等信息建立有效的安全防护体系，针对异常请求做实时风险检测，保障大模型处于一个安全、可靠的运营状态。

业务痛点

针对大模型生成内容具有一定的随机性，容易出现违法违规、歧视、商业侵权等风险的问题，很多测试团队主要依赖人工编写测试题和标注风险回复的方式进行评测，这种方式限制了发现威胁的数量和多样性，但若扩大规模又会耗费大量的人力和时间。

解决方案

本方案是一种主动的安全测试方法，旨在模拟攻击者的行为，评估大模型在真实威胁面前的安全性能与内容合规问题。方案优势如下：

• 独有的内容安全评测数据集：依据七部委联合发布的《生成式人工智能服务管理暂行办法》，结合自身十余年的内容风控经验沉淀，建立了覆盖100+种风险分类、涵盖20+种高级攻击的自动化数据集生成能力，可以满足不同客户场景的评测需求；

• 可快速部署的大模型内容安全评测框架：评测框架具有开箱即用的特点，可以灵活适配各种大模型，支持配置评测数据集类型与数量，自动化完成提问与答案回收，通过裁判大模型先分类再辅以人工复核完成标注；

• 兼具风险与改进建议的详实评测报告：评测报告内容包括评测方法、评测数据集、评测指标等数据;还会根据发现的风险给出详细的问题清单和改进建议，以达到帮助大模型内容风控系统升级的目的。

适用场景

NLP大模型

面向语言理解、语言生成等NLP场景，具备超强语言理解能力以及对话生成、文学创作、逻辑推理等能力的大模型服务。

CV大模型

基于领先的视觉技术和海量的数据，构建能够自主学习图像中的特征和模式，实现图像分类/检测/生成等复杂视觉任务的大模型服务。

跨模态大模型

基于知识增强的跨模态语义理解关键技术，实现跨模态检索、图文生成、图片文档的信息抽取等应用的大模型服务。

行业大模型

与各行业企业联手，在通用大模型的基础上学习行业特色数据与知识，建设行业AI基础设施，多方共建的行业大模型服务。

方案优势

专业性

依托百度安全在数据安全及隐私保护方向领先的安全技术(MPC、TEE、DP)、AI技术(图像识别、自然语言处理)长期积累、以及模型保护和业务安全持续对抗，可提供专业的大模型安全方案。

完整性

依托百度安全大模型安全保障实践工作总结，从大模型全生命周期视角出发，方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营在内全部关键阶段。

多样性

方案可以提供包含NLP自然语言大模型、CV大模型、跨模态大模型、行业大模型在内多种模型应用场景的安全防护，涵盖云上精调、私有化共建、以及安全咨询等多样的安全服务。