2025_NIPS_Bits Leaked per Query: Information-Theoretic Bounds for Adversarial Attacks on LLMs

张开发
2026/4/10 23:37:49 15 分钟阅读

分享文章

2025_NIPS_Bits Leaked per Query: Information-Theoretic Bounds for Adversarial Attacks on LLMs
一、文章主要内容总结该研究聚焦大型语言模型(LLMs)的对抗性攻击问题,从信息论视角建立了攻击查询复杂度的量化框架,核心内容如下:问题定位:LLM为提升透明度会暴露答案令牌、思维过程(如链式推理)、logits等可观测信号,但这些信号可能被攻击者利用,用于系统提示泄露、越狱攻击、重学习攻击(恢复模型本应遗忘的信息)等场景。目前缺乏量化信号泄露风险与攻击成本的理论依据,导致开发者难以平衡透明度与安全性。核心框架:将攻击过程建模为信息通道,定义观测信号Z与目标属性T(如攻击成功标志、隐藏系统提示)的互信息I(Z;T)I(Z;T)I(Z;

更多文章