分享文章
新闻分类
MemPrivacy – 记忆张量联合荣耀 AI 开源的隐私保护框架
MemPrivacy是什么
MemPrivacy 是记忆张量(MemTensor)团队联合荣耀 AI 团队及同济大学共同开源的端云协同 Agent 隐私保护框架。针对云端 Agent 长期记忆场景中的隐私泄露风险,提出”本地可逆伪匿名化”方案:端侧识别用户输入中的敏感信息并替换为带语义类型的占位符(如 <Email_1>、<Health_Info_1>),真实值映射保存在本地 SQLite 数据库;云端基于占位符继续完成推理、记忆写入与检索;回传后由本地还原为真实内容。

MemPrivacy的主要功能
- 本地可逆伪匿名化:端侧识别用户输入中的隐私片段,将其替换为带语义类型的占位符(如 <Email_1>、<Health_Info_1>),真实值与占位符的映射持久化存储于本地 SQLite 数据库,云端仅见占位符不见明文,回传后本地再还原为真实内容。
- 四级隐私分类体系(PL1–PL4):以可识别性、潜在危害性与可利用性为准绳,将隐私分为基础画像级(PL1)、身份锚定级(PL2)、高危敏感级(PL3)、致命核心级(PL4),支持用户自由配置脱敏阈值与保护策略。
- 三种掩码模式:type_specific 类型化占位符(保留语义角色,效用最佳)、generic 通用占位符(隐私更强但语义较弱)、complete 完全删除敏感片段(隐私最强但效用最低)。
- 端-云-端三段式流程:上行脱敏(本地)→ 云端处理(推理/记忆写入/工具调用)→ 下行恢复(本地),实现架构级隔离,云端组件永不接触原始敏感值。
- 多规格端侧模型:开源 0.6B、1.7B、4B 参数版本(基于 Qwen3 系列底座),均提供 SFT 与 RL 训练版本,适配从轻量 IoT 到高性能端侧的不同部署需求。
- 自研评测基准 MemPrivacy-Bench:覆盖 200 个合成用户、中英双语多轮对话、超 15.5 万个隐私项,支持隐私提取准确率与记忆系统效用损失的端到端评估。
- 开箱即用评估套件:内置 Mem0、LangMem、Memobase 三大主流记忆系统的端到端评估脚本,可直接测试不同保护策略下的隐私-效用权衡。
- 低延迟本地处理:单条消息隐私检测与脱敏延迟低于 1 秒,适合无缝端侧部署,不影响用户实时交互体验。
- 持久化映射管理:本地 SQLite 数据库跨会话保存占位符 ↔ 真实值映射,支持长期 Agent 记忆场景下的持续隐私保护。
如何使用MemPrivacy
- 克隆仓库并安装依赖:git clone https://github.com/MemTensor/MemPrivacy.git,创建虚拟环境并执行 pip install -r requirements.txt。
- 配置隐私框架参数:编辑 src/privacy_config.yaml,设置 LLM API 凭证、本地 SQLite 数据库路径及掩码级别(如 PL3、PL4)。
- 配置评估套件参数(可选):编辑 evaluation/eval_config.yaml,配置 OpenAI API、记忆系统数据库连接(Mem0 / Memobase)及各角色 LLM。
- 运行核心脱敏流程:调用 src/privacy_masking.py 中的 mask_dialogue() 进行上行脱敏,选择掩码模式(type_specific / generic / complete)。
- 云端交互:将脱敏后的文本发送至云端 LLM / 记忆系统,云端基于占位符完成推理与记忆操作。
- 下行恢复:调用 unmask_dialogue() 使用本地 SQLite 映射表将云端响应中的占位符还原为真实值。
- 运行记忆系统评估(可选):执行 python evaluation/eval_mem0.py / eval_langmem.py / eval_memobase.py 进行端到端基准测试。
MemPrivacy的项目地址
GitHub仓库:https://github.com/MemTensor/MemPrivacy
HuggingFace模型库:https://huggingface.co/collections/IAAR-Shanghai/memprivacy
arXiv技术论文:https://arxiv.org/pdf/2605.09530
MemPrivacy的技术原理
- 本地可逆伪匿名化架构:采用”端-云-端”三段式流程,端侧负责隐私检测与脱敏、本地映射存储及下行恢复,云端仅处理带占位符的文本,实现架构级隔离,确保原始敏感值永不进入云端
- 细粒度隐私检测模型:基于 Qwen3 系列底座训练专用隐私提取模型,通过 SFT 阶段学习 26K 高质量多轮对话中的隐私定位与替换能力,再通过 GRPO 强化学习优化模糊边界下的召回率与精确率平衡
- 四级隐私分类树(PL1–PL4):以可识别性、潜在危害性与可利用性三维指标构建隐私分级体系,PL1 为低敏偏好画像、PL2 为身份锚定信息、PL3 为高危敏感数据、PL4 为致命核心凭证,支持用户按策略阈值动态触发保护
- 语义保留的占位符替换机制:将敏感片段替换为带类型的占位符(如 <Email_1>、<Health_Info_1>),相比传统 *** 掩码或通用 <Mask_1>,保留了语义角色信息,使云端 Agent 仍能基于类型理解上下文并完成推理、记忆检索与工具调用
- 本地 SQLite 映射持久化:在端侧建立占位符 ↔ 原始真实值的加密映射数据库,跨会话持久保存,支撑长期记忆场景下的双向转换,且映射数据仅驻留本地不上传
- 三种掩码策略动态切换:type_specific 模式最大化语义保留与系统效用;generic 模式降低语义暴露面;complete 模式直接删除敏感片段,用户可按隐私等级与场景需求灵活选择
MemPrivacy的核心优势
- 隐私提取准确率大幅领先:MemPrivacy-4B-RL 在 MemPrivacy-Bench 上 F1 达 85.97%,OpenAI privacy-filter 仅 35.50%,领先 50.47%;在跨分布数据集 PersonaMem-v2 上仍领先近 9%。
- 系统效用损失极低:保护 PL2-PL4 时记忆系统准确率仅下降 0.71%~1.60%;仅保护 PL4 时下降低于 0.89%,传统不可逆掩码会导致 16%~42% 暴跌。
- 越级碾压通用大模型:即便面对 GPT-5.2、Gemini-3.1-Pro、DeepSeek-V3.2-Think 等通用模型,MemPrivacy-4B 乃至 0.6B 微型版本在隐私提取任务上均实现碾压。
- 细粒度语义保留:类型化占位符让云端 Agent 仍能理解语义结构,避免”Agent 失忆”或任务逻辑断裂。
- 低延迟端侧部署:单条消息处理延迟低于 1 秒,适合无缝本地部署。
- 两阶段训练策略:先通过 26K 高质量多轮对话数据 SFT 掌握基础隐私定位与替换,再引入 GRPO 强化学习优化模糊边界下的召回与精确率平衡。
MemPrivacy的同类竞品对比
| 对比维度 | MemPrivacy | OpenAI privacy-filter |
|---|---|---|
| 发布方 | 记忆张量 MemTensor + 荣耀 + 同济大学 | OpenAI |
| 发布时间 | 2026 年 5 月 15 日 | 2026 年 4 月 22 日 |
| 模型参数 | 0.6B / 1.7B / 4B(基于 Qwen3) | 1.5B 总参,约 50M 激活参数 |
| 隐私标签粒度 | 细粒度类型化占位符(如 <Health_Info_1>) | 8 类基础标签(如 [PRIVATE_PERSON]、[SECRET]) |
| 隐私分类体系 | 四级分层(PL1-PL4),可调控阈值 | 无明确分级,统一处理 |
| 核心机制 | 本地可逆伪匿名化(端-云-端) | 双向 Token 分类,直接掩码/替换 |
| F1 分数(MemPrivacy-Bench) | 85.97%(4B-RL 版本) | 35.50% |
| 系统效用损失 | 0.71% ~ 1.60% | 传统掩码导致 16%~42% 暴跌 |
| 上下文长度 | 适配长文本 Agent 记忆场景 | 128K |
| 开源范围 | 模型权重、代码、评测基准全开源 | 模型开源 |
MemPrivacy的应用场景
- 端侧智能助手隐私增强:为手机端 AI 助手提供本地隐私过滤层,确保用户健康、财务数据不上云明文。
- 企业级 Agent 合规部署:在涉及客户 PII 的客服 Agent、医疗 Agent 中满足数据合规要求。
- 长期记忆型个人助理:保护用户日程、偏好、家庭住址等长期记忆数据,同时保留个性化能力。
- 跨境云服务隐私隔离:中国大陆用户数据经本地脱敏后上云处理,满足数据出境合规要求。
- 隐私保护研究基准测试:用 MemPrivacy-Bench 评估不同记忆系统(Mem0、LangMem、Memobase)的隐私-效用权衡。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/







可爱的埋埋
关注网络尖刀微信公众号
