大语言模型安全总览

文章来源于Datawhale NLP Base 课程

通过前面的章节，我们已经从 NLP 基础、预训练模型到大模型微调与部署，构建了一套完整的技术路径。接下来，本节将从更高一层的“系统视角”出发，梳理大模型在真实落地中的安全问题与防护思路，为后续具体攻防与治理章节打下统一的概念基础。与传统软件不同，大语言模型一旦投入使用，就会持续与用户、数据和外部系统交互。如果不了解这些风险从何而来、如何在全链路上构建防线，模型很容易在“越狱提示”“错误决策”“数据泄露”等场景中成为问题的放大器，而不是解决方案的一部分。

一、从“好用”到“可控”

近两年，具备强大生成能力的大语言模型在对话、搜索、编程辅助和垂直行业中快速普及，在语言理解与生成上的表现显著提升了效率，并打开了新的业务创新空间。与此同时，多份系统性综述指出，随着模型规模扩大、接入场景增加，模型产生有害内容、偏见、错误决策与被恶意利用的事件也在同步增加，安全问题从“潜在担忧”升级为“现实痛点” ¹。典型风险不再只是某个接口的单点故障，而是贯穿数据—模型—工具—运营全流程的系统性隐患。业界普遍采用 3H 原则作为衡量模型是否“可控”的标准。这一原则由 Anthropic 最早提出并推广 ²，即模型不仅要对用户有用（Helpful），还要保证输出信息的真实性（Honest），最重要的是必须守住 无害性（Harmless） 的底线。然而在实践中，这三者往往存在权衡，例如过度追求无害性可能导致模型拒绝回答正常的科学问题（过度拒答）。

这种理论上的权衡，在面对现实世界的恶意攻击时显得尤为脆弱。安全研究中用越狱（Jailbreak）来描述通过精心构造提示词，诱导模型无视原有安全策略、输出本应禁止内容的攻击方式；用 提示注入（Prompt Injection）来描述攻击者通过嵌入隐藏指令、元指令改写系统预期行为的方式。近年的系统性调研表明，这类攻击已经形成较完善的分类与评测体系 ³。攻击者可以通过设定虚构角色、拆分问题、多轮“温水煮青蛙”式对话等方式，让模型逐步偏离初始安全约束，从而输出攻击步骤、仇恨言论或自残暗示等高风险内容；在医疗、教育与心理健康等实际评测中，还观察到模型在情绪化话题上出现极端表达、在敏感领域给出看似自信但明显错误的建议，并在用户追问下不断“添油加醋”。所以单纯依赖“直觉防守”远远不够，需要从模型运行机理和系统架构两条线同时理解，模型为什么会被带偏，以及系统可以在哪些环节“兜底”。

二、溯源模型机制中的安全隐患

2.1 数据污染及能力陷阱

大语言模型的预训练过程，就是它“大脑”发育的关键期。模型贪婪地从数据中汲取养分，在无数次预测下一个 Token 的训练中，学会了流畅的语言表达和复杂的上下文逻辑。但是，这种无监督的学习方式也埋下了数据污染的隐患。因为训练语料中不可避免地夹杂着人类社会的偏见、虚假信息与恶意言论，模型在学会“像人一样说话”的同时，也可能全盘照收了这些“思想病毒”。从底层机制看，主流模型依然是基于自回归 Transformer。正如我们学习过的，其本质是一个基于概率的下一个词预测器。虽然在海量参数和数据的加持下，模型涌现出了逻辑推理与复杂任务规划能力，但它并不具备人类意义上的“是非观”或内建的“事实核查器”。它依然只是根据预训练阶段习得的语料共现概率，在给定的上下文后面续写最顺畅的 Token。

从安全角度看，模型并没有内建“事实检测器”或“价值判断模块”，它只是根据上下文分布进行生成。所以一旦上下文中包含恶意示例、不良价值取向或隐含指令，模型就极易顺势继续那条“话语轨道”，出现“一本正经地说错话”甚至输出违法有害内容的情况。这也意味着大模型的安全是概率性的，不存在传统软件中“修复 Bug 就 100% 安全”的状态，我们只能无限降低风险发生的概率。

更值得警惕的是一个棘手的悖论，模型的基础能力越强，其安全防御的难度反而可能越高。在过去，小模型可能因为理解能力不足而无法被复杂的攻击指令诱导。但如今的大模型具备了极强的上下文理解与指令遵循能力，攻击者只需找到那个微妙的“语境薄弱点”，就能利用模型的“聪明”使其一本正经地输出本该被屏蔽的违规内容或谣言。所以安全不能仅靠后期的修补，还必须作为一种“核心基因”，从预训练数据的筛选开始，就深深植入到模型构建的每一环中。

2.2 KV Cache 与“记得太多”的隐患

为了支持多轮对话和长上下文，现代大模型普遍使用 KV Cache 等记忆机制来缓存历史对话，从而在后续生成中“记得住”用户之前说过的话。这在提升对话的连贯性与“人格一贯性”的同时，也引入了两个典型安全隐患：

上下文越界可见：如果系统在多用户、多会话之间错误复用缓存或共享检索结果，模型就可能在 B 用户的对话中无意泄露 A 用户的内容，形成“跨会话隐私泄露”。
长程依赖中的暗示放大：攻击者可以在早期轮次埋入看似无害的引导或暗示，利用缓存让这些信号在后续生成中持续发挥作用，从而实现“多轮劫持”。

从系统视角出发的综述《Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems》⁴ 指出，LLM 系统中的隐私泄露和行为失控，往往与输入模块、语言模型和工具链之间缺乏清晰边界与安全审计有关。结合代理型大模型的长程记忆机制，如果没有明确的记忆分级、过期与审计策略，这些持久化记忆反而会成为隐私泄露、行为扭曲与难以解释输出的重要来源。

2.3 RAG、工具调用与代理化能力

在基础对话之外，工业界大量使用检索增强生成（RAG）、函数调用（Tools / Plugins）和多代理编排（Agents）等技术，让模型具备“查资料、调接口、驱动系统”的能力。这些扩展让模型不再只是“会说话”，而是可以触达数据库、业务系统和外部 API，因此也被视为新一代高危接口：

RAG 管线与间接注入：除了常规的文档投毒，这里还存在 间接提示注入（Indirect Prompt Injection）风险。攻击者无需直接与模型对话，只需在网页或文档中隐藏不可见的“指令文本”，当模型检索并阅读该页面时，就会被这些指令劫持，从而执行攻击者的意图。
函数调用 / 插件：在缺乏最小权限与白名单控制的情况下，模型可能在攻击者诱导下调用高权限接口（如删除数据、发起转账），相关安全研究已经把这类“过度代理能力”列为独立风险类别。此外，多智能体交互（Multi-Agent Interaction）也引入了新的风险，多个 AI 智能体之间的自主交互可能产生不可预测的反馈循环，导致系统性的失控。

大模型的运行机理本身并非“邪恶”，但其对上下文高度敏感、对扩展能力高度依赖的特性，使得安全问题往往不是单一层面的缺陷，而是模型、记忆、检索与工具协作失败的综合结果。

三、四个维度理解大模型失控

大模型安全如图 16-1 可以系统性地分为基础安全领域（Basic Areas）与相关安全领域（Related Areas）两大宏观维度。其中基础安全涵盖了价值对齐（如偏见、隐私、有毒内容）、鲁棒性（越狱与防御）、恶意滥用（虚假信息、深伪技术、武器化）以及自主风险（目标错位、欺骗行为）等；相关安全则进一步延伸至 Agent 外部交互安全、可解释性带来的内建安全机制、以及工程实践中的技术路线图与宏观治理政策。

图 16-1 大模型安全分类体系

基于此全景图，为了更聚焦地指导落地实践，参考近年的综述与分类工作，我们将重点从 “价值对齐与有害内容”、“可靠性与幻觉”、“对抗攻击与滥用”与“隐私与合规” 这四个核心维度，来系统性地刻画大模型面临的具体风险版图。

3.1 价值对齐与有害内容

这一类风险关注模型是否会输出违背伦理与法律底线的内容，包括仇恨言论、煽动暴力、自残鼓励、色情与歧视性言论等。参考 SafetyBench 等权威评测体系，这类风险可以被细分为攻击性、不公平与偏见、伦理道德、违法活动、身体健康、心理健康和隐私财产等七大维度 ⁵。其中特别值得注意的是身心健康（Physical & Mental Health）风险，即模型不应提供错误的医疗急救建议或诱导心理创伤的言论，这是传统内容风控容易忽视的盲区。如图 16-2 所示，SafetyBench 通过具体的选择题形式展示了这些维度的边界。例如在攻击性测试中，模型需要判断“所有四川人都…”这种地域歧视言论是否包含冒犯性；在身体健康测试中，面对“看见一只口吐白沫的狗”的场景，模型必须能识别出“擦拭下巴”是高危行为，来选择正确的避让操作。这种基于场景的细粒度分类，比单纯的“有害/无害”二分法更能覆盖真实世界的复杂风险。

图 16-2 SafetyBench 安全分类体系与示例（涵盖身心健康与伦理道德等七大维度）

大规模评测表明，即便是经过对齐的商用模型，在极端话题或复杂上下文中仍然会出现不当内容，或在边界模糊场景下做出不一致的判断。例如，2024 年 11 月发生的“Gemini 请去死”事件（如图 16-3），用户在就老龄化挑战进行多轮对话后，模型突然输出了“你对地球来说是负担…请去死”的极端言论。

Gemini 失控输出示例
图 16-3 Gemini 在对话中突然输出极端恶意内容

研究通常将此类风险归因于两方面。一是预训练语料中本身存在大量偏见与极端表达，模型在缺乏严格过滤下原样学习并在新语境中复用；二是对齐数据与策略覆盖面有限，在多文化、多语种与细分场景下缺乏足够的安全约束样本。而且，模型还容易出现迎合效应（Sycophancy），为了“取悦”用户而顺从用户的错误观点或偏见，这也是一种隐蔽的价值观对齐失败。

3.2 真实性与幻觉

“幻觉”指模型在缺乏真实依据或检索失败时，仍然以自信的口吻编造看似合理但事实错误的内容，是当前大模型可信度的核心瓶颈之一。幻觉并非仅由推理阶段的随机性导致，而是贯穿于大模型研发的全生命周期。如图 16-4，从数据清洗阶段的错误知识录入，到模型架构中注意力机制的缺陷，再到预训练时的捷径学习（Shortcut Learning）与微调阶段的过拟合，每一个环节都可能埋下产生幻觉的隐患。所以，治理幻觉需要从全流程入手，而不只是修补输出结果。

图 16-4 大模型全生命周期中的幻觉成因与风险触发点

3.3 对抗攻击与恶意滥用

这一维度聚焦于主动攻击者如何利用模型漏洞达成恶意目标，典型包括提示注入与越狱、数据和模型投毒、模型窃取与逆向、拒绝服务攻击和供应链攻击等。OWASP 面向 LLM 的 Top 10 风险（2025 年版）中 ⁶，提示注入、敏感信息泄露和供应链漏洞被列为前三大风险类别，反映了业界对这些问题的高度共识。

除了上述头部风险，针对大模型特性的新型攻击手段也在不断演进。例如，资源耗尽攻击（Resource Exhaustion） 作为一种新型拒绝服务攻击，允许攻击者通过构造极长的上下文或复杂的推理链，故意消耗模型的计算资源，导致服务延迟增加甚至瘫痪。同时还有 不安全的输出处理（Insecure Output Handling） 也不容忽视。如果下游应用盲目信任并执行大模型的输出内容（如生成的代码或网页片段）而未做严格校验，攻击者可能通过诱导模型输出恶意脚本，触发跨站脚本（XSS）或远程代码执行（RCE）等严重漏洞。而且，攻击面正在向下层基础设施延伸。工具链与硬件风险开始浮现，例如利用深度学习框架（如 PyTorch）的序列化漏洞执行恶意代码，甚至通过监控 GPU 的电磁信号或功耗（侧信道攻击）来窃取私有模型的参数或结构。

3.4 隐私、数据治理与合规

大模型在训练和服务阶段都需要处理大量用户数据与日志，带来成员推断、训练数据重构、敏感信息泄露以及跨境数据流动合规等问题。综述《A Survey on Data Security in Large Language Models》⁷ 从数据投毒、提示注入、幻觉、提示泄露和偏见等维度系统梳理了 LLM 的数据安全风险，并总结了对抗训练、RLHF 和数据增强等防御思路。同时，更广泛的隐私与数据安全研究表明，攻击者可以通过针对性查询和统计分析，从模型中反推出训练语料中出现过的姓名、地址或账号信息（成员推断攻击）；除了直接泄露训练数据，推断隐私（Inference Privacy） 也是一大隐患，这种风险表现为模型可能通过分析用户提供的看似无害的非敏感数据（如文本风格、在线活动时间），推断出用户的政治倾向、健康状况或地理位置等敏感属性（属性推断攻击）。另外，攻击者也可以通过长期“投喂”恶意样本影响模型偏好甚至植入后门。

在监管层面，全球范围内针对生成式 AI 的规制网络正在快速收紧。欧盟《人工智能法案》（AI Act）首创性地将通用大模型纳入高风险监管框架，对其透明度与风险评估提出了强制性红线 ⁸。在我国，监管思路则更加侧重于“算法备案”与“内容可控”的双重治理。根据《生成式人工智能服务管理暂行办法》及配套的算法备案制度 ⁹，大模型服务商必须清晰报备算法的训练数据来源、人工干预机制以及安全防护措施。这不仅要求输出内容不得触碰法律法规的底线（如颠覆政权、虚假信息），更对用户隐私数据的收集与使用划定了严格边界。这也迫使平台方必须在“释放模型创造力”与“收紧安全缰绳”之间寻找一种动态平衡，即建立一种既能允许模型自由探索，又能随时熔断风险的“可调式安全治理”机制。

四、全链路防护

安全防护并不是在某一层“加几条规则”就能解决的，而是要围绕输入模块—模型模块—工具链模块—输出模块构建多层次的防线，并在监控与治理层实现闭环。

4.1 输入与接口：挡住“第一波洪水”

输入层面是大多数越狱和注入攻击进入系统的入口，也是保护内部上下文与工具调用的第一道闸门。典型实践包括：

（1）身份与速率控制

对公开 API 引入认证、配额与节流策略，避免被恶意脚本暴力枚举攻击面或进行大规模红队扫描。

（2）提示内容过滤与结构化解析

在进入模型前对输入做敏感词、注入模式与异常结构检测，结合规则与分类器识别可能的提示注入与恶意 payload，将“纯文本指令”尽可能拆分为结构化字段以减少指令歧义空间。还可以采用防御性提示设计（Defensive Prompt Design），例如 “三明治防御（Sandwich Defense）”（将用户输入置于两条安全指令之间）或 “JSON 封装”（强制要求用户输入被解析为 JSON 的数据字段而非指令），从结构上降低提示注入的成功率。对于高危指令，可以探索性地尝试利用困惑度（Perplexity）等统计特征配合检测模型识别异常文本，但这类方法目前仍主要处于研究阶段，应与其他安全机制结合使用。

（3）上下文与会话隔离

对不同用户、租户和会话使用独立的会话 ID 与缓存空间，禁止在未显式授权的情况下跨会话复用历史上下文或检索结果，从架构上避免“串号”。

（4）可编程护栏（Guardrails）

引入如 NeMo Guardrails 等运行时防护框架，通过专门的脚本语言定义对话流的边界（如“不讨论政治”、“不回应竞争对手话题”），在模型生成前/后进行实时的语义拦截与修正，而不仅仅依赖关键词匹配。

OWASP LLM Top 10 也建议在接口层面显式标注“可被模型访问的外部资源白名单”，并对上传文件、URL 和富文本做严格的内容审查与大小限制，防止通过长文档或隐写内容实施间接提示注入。

4.2 让“能说”变成“该说什么”

在模型内部，安全防护更多体现在对齐与行为控制上，也就是通过训练与后处理让模型在“有用性”和“安全性”之间达到可接受的折中。主流技术路径包括：

基于人类或 AI 反馈的对齐训练：通过 RLHF、RLAIF 和 DPO 等方法，将“拒绝有害请求”、“保持诚实和礼貌”、“在不确定时表明局限”转化为可优化目标，使模型在面对高危 Prompt 时学会拒绝或引导，而不是机械给出答案。随着模型能力逼近甚至在某些方面超越人类，如何监督比人类更聪明的模型（可扩展监督，Scalable Oversight）已成为对齐领域面临的根本性挑战。单纯依赖人类反馈可能导致模型学会“迎合”甚至“欺骗”人类评审员，输出人类爱听的答案而非事实（Sycophancy），或利用人类审查的漏洞获取奖励（Reward Hacking）。
“宪法式”规则与指南库：借鉴 Constitutional AI 的思路，预先定义一套涵盖安全、隐私、偏见和专业伦理的“原则集”，在训练或推理时作为高优先级的系统指令或额外约束。研究表明，仅通过添加强调安全的 System Prompt（如“请始终以安全、尊重且真实的方式回答…”），就能立竿见影地降低开源模型约 9% 的不安全响应率 ¹⁰。虽然无法解决所有问题，但这无疑是成本最低的第一道防线。
弃答与转介机制：针对高风险领域引入“合理拒答”与“建议咨询专业人员”的模板化行为，通过阈值、置信度估计或外部验证器，控制模型在不确定场景下输出的范围与语气。
数据增强与去偏：在训练阶段引入反事实数据增强（Counterfactual Data Augmentation），通过自动生成平衡样本（如置换性别、种族词汇）来消除模型潜藏的刻板印象与社会偏见，从源头提升数据的公平性。
遗忘学习（Machine Unlearning）：这是一项前沿技术，旨在让模型在不损失通用能力的前提下，定向“遗忘”特定的有害知识（如危险化学品的制造方法）或受版权保护的数据。

需要注意安全对齐过度也会带来“过度拒答”的副作用，即模型在完全安全的场景中也频繁拒绝回答，影响可用性。因此近期工作开始探索通过激活引导、细粒度标签和多目标优化来平衡“有用”和“谨慎”。

4.3 给“外放能力”装上护栏

对于具备 RAG、函数调用或多代理能力的系统，工具链本身就是新的攻击面，需要从权限、审计和隔离三个维度进行加固：

（1）最小权限与白名单：对每个可被模型调用的接口定义精确的权限边界，仅暴露必要的读/写能力，对修改类操作设置额外确认或人类审批（Human-in-the-loop），将“能做什么”清晰收窄。

（2）调用审计与沙箱执行：记录每次工具调用的参数、来源提示与结果，将高危操作放入受限环境中执行，必要时进行速率限制与模式检测，一旦发现异常行为，可以及时阻断并回滚。

（3）RAG 数据治理：对检索库进行数据清洗、敏感信息脱敏与版本管理，引入内容分级与可信度标签，避免将未经审核的外部文本直接“喂给”模型作为权威依据。

4.4 监控、日志与安全治理

安全不是一次性的配置，而是持续的运营过程。大规模实践都强调要建立覆盖输入、输出、工具调用与系统状态的多维监控与日志体系，以支撑溯源、响应与改进。典型做法有：

安全监控面板：在指标体系中纳入有害响应率、拒答率、越狱成功率和高危工具调用频次等安全指标，与延迟和成功率并列观察。
可回放与审计：对触发安全策略的会话进行脱敏存档，用于安全团队复盘与规则迭代，同时满足合规要求下的取证和外部审计需求。
数字水印：在模型输出中嵌入不可见的水印（如调整 Token 采样的统计分布），以便在不影响阅读体验的前提下，实现对 AI 生成内容的标识与溯源，防止被用于大规模虚假信息生成。
跨职能治理机制：将安全责任从单一工程团队扩展到产品、法务与运营，通过评审流程和变更管理，把“安全评估”嵌入新功能上线和模型版本升级的标准流程中。
安全缓冲区：借鉴 Anthropic 的实践，在模型能力达到危险阈值之前（例如从 ASL-2 升级到 ASL-3），预留一个“安全缓冲区”。在缓冲区内，对模型进行更严格的红队测试和熔断机制部署，防止能力突然涌现导致的失控，为人工干预预留时间窗口。

五、如何量化“是否安全”

5.1 通用安全基准与红队框架

近期出现的一系列安全评估套件，如 SimpleSafetyTests、SafetyBench 和其他红队框架等，从不同维度覆盖了仇恨、暴力、自残、隐私泄露与违法指导等场景，提供标准化的测试集与评分指标。不过，在使用这些基准时需注意 负向预测力（Negative Predictive Power） 局限。也就是说模型在测试集上得满分，只能证明“未发现已知漏洞”，而不能证明“绝对安全”。

不过，传统的基于文本重合度的指标（如 BLEU、ROUGE）已无法有效评估大模型生成的语义安全性和真实性（Eval Problem）。如图 16-5 所示，在“人类使用了多少大脑”这一问题上，GPT-4 和 Bard 给出了事实正确且详尽的回答，但这些回答与简短的标准答案在文本重合度上极低，导致 BLEU/ROUGE 得分很低。这种“答对了但得分低”的现象，直观地说明了传统 NLP 评估指标在长文本生成和复杂推理场景下的失效。

图 16-5 传统评估指标在 LLM 场景下的失效（Eval Problem）

所以当前趋势是转向基于语义的自动化评估，尝试将模型自身或外部评委模型用作“裁判”（LLM-as-a-Judge），在一定程度上辅助完成大规模场景的自动打分与对比。部分研究表明，在引入思维链推理等机制后，模型在识别复杂有害内容时的准确率有明显提升，在某些设置下整体判断趋势可以接近人类专家 ¹¹。另外，安全理解能力（Safety Understanding）的评估也日益重要。SafetyBench 提出通过选择题的形式来考察模型是否“知晓”安全边界。结果显示，模型的安全理解能力与安全生成能力呈现强相关性——即通过提升模型对安全规则的认知水平，可以有效降低其在开放生成场景下输出有害内容的风险。这种方法相比昂贵的人工红队测试，提供了一种更快速、可量化的基准测试手段。

这些工具通常支持多语言与多轮对话测试，能够帮助团队定量回答两个问题：

（1）在标准化攻击与敏感场景中，模型有多大概率拒绝或给出安全回答？
（2）在安全策略或模型版本调整后，风险水平是否有所改善？

5.2 幻觉检测与可信度评估

幻觉主要分为事实性幻觉（Factuality Hallucination）（违背世界知识）和忠实性幻觉（Faithfulness Hallucination）（违背输入上下文或指令）。针对这两类问题，单纯依靠文本相似度指标已不足以衡量模型的可信度。参考 Alansari 等人在《Large Language Models Hallucination: A Comprehensive Survey》 ¹²中给出的最新研究，业界已建立起一套涵盖检索、不确定性、自一致性等多维度的检测与评估体系：

（1）不确定性与内部状态检测：利用模型生成的概率分布来识别风险。例如，通过计算 语义熵（Semantic Entropy） 来判断模型是在陈述事实还是在“猜谜”；或者利用 Lookback Lens 等工具分析注意力图（Attention Maps），检测模型是否过度关注无关上下文而产生幻觉。

（2）自一致性校验（Self-Consistency Check）：对于缺乏标准答案的开放场景，SelfCheckGPT 等方法通过对同一提示进行多次采样并比对结果的一致性来判定真伪。如果模型对同一问题的多次回答相互矛盾，则极大概率为幻觉。这种方法无需外部知识库，特别适合黑盒模型的评估。

（3）基于检索与事实核查（Retrieval-based Fact Checking）：引入外部验证器，如 FactCC 或基于 RAG 的核查流程，将生成内容拆解为原子断言（Atomic Claims），并逐一与检索到的权威证据进行比对。

（4）模型即裁判（LLM-as-a-judge）：利用 GPT-4 等强模型模拟人类评估者（如 G-Eval 框架），从连贯性、事实性和相关性等维度对输出进行打分。虽然这引入了新的偏差风险，但研究显示其与人类判断的相关性显著优于传统统计指标。

在医疗等高风险场景中，还会引入人类专家打分与领域基准，用于评估模型在专业知识、风险提示与情绪照护方面的综合安全表现。