PEFT on 酒中仙

基于 peft 库的 LoRA 实战

Wed, 25 Mar 2026 22:40:25 -0800

基于 peft 库的 LoRA 实战

在前两个小节中，探讨了参数高效微调（PEFT）的理论背景和主流方法，特别是 LoRA 的核心原理。这些知识为我们提供了理论支撑，但要真正驾驭这些技术，还需要一个强大而易用的工具。本节将进入实战环节，学习使用当前社区常用的 PEFT 工具库——Hugging Face 的 peft ¹。 peft 库的设计理念与 Hugging Face 生态系统一脉相承，它希望将复杂的 PEFT 技术（如 LoRA, Prefix Tuning, Adapter 等）抽象成统一、简洁的接口，让开发者能够以最小的代码改动，将这些高效微调方法无缝地应用到 Hugging Face Hub 上的大模型上。如图 11-11，peft 库的官方文档将其内容划分为快速入门、方法指南、概念指南和参考手册，便于开发者上手。

图 11-11 Hugging Face PEFT 库官方文档首页

一、`peft` 库的设计理念

要理解 peft 库，首先要明白它并非要取代基础的模型库（例如 transformers），而是作为其插件或 增强模块 而存在。

我们可以类比游戏《黑神话：悟空》：

基础预训练模型：如同主角“天命人”（悟空），他本身已拥有强大的基础能力和标志性的金箍棒。但面对不同的 Boss（下游任务），只靠基础能力会很吃力。让他“重新修炼”以获得全新能力（即全量微调）显然不现实。
peft 库：则相当于悟空掌握的“七十二变”法术神通库。这个库里包含了各种强大的法术（如 LoRA）、变身能力（如 Prefix Tuning）和法宝（如 Prompt Tuning）。
PeftConfig：相当于一份为特定 Boss 战准备的“法术搭配方案”。这份方案详细规划了要启用哪一种核心神通（例如 peft_type='LORA'），以及该神通的具体参数（例如 LoRA 的 r、lora_alpha，可以理解为法术的威力和范围）。
get_peft_model 函数：扮演着“临阵变身”的角色。它接收基础的“悟空”（base_model）和选定的“法术搭配方案”（peft_config），然后依据方案，将对应的神通（例如 LoRA 的低秩矩阵）“加持”在悟空身上，从而打造出一个针对特定 Boss 特化的、能力更强的 PeftModel。

通过这种方式，无需改动庞大的基础模型本身（冻结其大部分权重），只需定义、训练和切换不同的轻量级插件（Adapter），就能让模型高效地适应各种下游任务。这不仅节省了大量的计算和存储资源，也使得模型的管理和部署变得更加灵活。

二、`peft` 库的核心组件

peft 库通过几个核心的类和函数，实现了对各种 PEFT 方法的统一封装，使其遵循一致的调用逻辑。接下来，简单介绍一下。

2.1 声明式配置 PeftConfig

PeftConfig 是所有 PEFT 方法配置的基类，它采用声明式的方式定义了微调的策略。其中最重要的两个通用参数是：

peft_type：一个枚举类型，用于 指定要使用的 PEFT 插件类型。例如，PeftType.LORA 明确表示使用 LoRA 方法。这是 peft 库能够自动检索和应用不同微调算法的关键。
task_type：同样是枚举类型，用于 指定模型的下游任务类型。例如，TaskType.CAUSAL_LM 用于自回归语言模型（如 GPT），TaskType.SEQ_2_SEQ_LM 用于序列到序列模型（如 T5）。这个参数能够帮助 peft 库为特定任务对模型的头部（Head）或其他结构进行正确的适配。

针对每一种具体的 PEFT 方法，peft 库都提供了一个继承自 PeftConfig 的子类，例如 LoraConfig、PromptTuningConfig 等。以 LoraConfig 为例，它包含了 LoRA 方法专属的超参数，这些参数直接源于 LoRA 论文中的定义：

r：LoRA 的秩（rank），决定了低秩矩阵 A 和 B 的中间维度 (d, r) 和 (r, k)。它是控制新增参数量和模型适应能力的核心超参数。
lora_alpha：LoRA 的缩放因子。在 LoRA 的计算中，低秩矩阵的输出 BAx 会乘以一个缩放系数 alpha/r。lora_alpha 就是这个公式中的 alpha，它用于调整低秩适应矩阵与原始权重矩阵合并时的尺度。
target_modules：一个字符串或正则表达式列表，用于 精确指定要将 LoRA 应用于基础模型中的哪些模块。如，["q_proj", "v_proj"] 表示仅在 Transformer 层的 query 和 value 投影矩阵上应用 LoRA。
lora_dropout：在 LoRA 层上应用的 Dropout 比例，用于防止过拟合。
bias：偏置参数的训练方式，可选值为 'none'（冻结所有 bias）、'all'（训练所有 bias）或 'lora_only'（仅训练 LoRA 模块自身的 bias）。

2.2 动态注入生成 PeftModel

get_peft_model 是 peft 库中的核心工厂函数。它接收一个原始的预训练模型和一个 PeftConfig 对象，然后执行以下操作：

解析 PeftConfig，确定要使用的 PEFT 方法和相关参数。
遍历基础模型的网络结构，根据 target_modules 找到需要注入 LoRA 模块的目标层。
将原始的目标层（如 nn.Linear）替换/封装为注入了 LoRA 的线性模块（如 LoraLinear 或其 k-bit 量化变体）。该模块内部保留冻结的原始权重，并引入可训练的低秩分支 A 和 B。
返回一个 PeftModel 实例。

返回的 peft_model 对象是一个高度封装的模型。它内部保留了对原始基础模型的引用，并通过动态修改其 forward 传递路径，实现了 LoRA 逻辑的注入。这个 peft_model 实例拥有与基础模型完全兼容的接口，可以直接用于 Trainer 或自定义的训练循环中。

peft_model 还提供了一个有用的调试方法是 print_trainable_parameters()，它可以计算并打印出模型中可训练参数的数量及其占总参数量的比例，能够直观地感受到 PEFT 在节约资源上的巨大优势。

三、LoRA 微调实战流程

结合 peft 库，可以形成一个标准的 LoRA 微调流程。下面以 EleutherAI/pythia-2.8b-deduped 模型为例，进行微调实战。

本节完整代码

3.1 加载依赖、基础模型与分词器

为了在消费级硬件上运行数十亿参数的大模型，需要采用量化技术。这里，我们使用 bitsandbytes 库，在加载模型时直接对其进行 8-bit 量化，并指定 dtype=torch.float16 以进一步优化显存。

根据 transformers 库的最新实践，现已不再推荐使用已被弃用的 load_in_8bit=True 参数，而是通过定义一个 BitsAndBytesConfig 对象，并将其传递给 quantization_config 参数来精确地控制量化行为。同时，通过设置 device_map="auto"，可以让 accelerate 库自动地、智能地将模型层分配到可用的硬件上（例如，将所有层都放到唯一的 GPU 上）。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

model_id = "EleutherAI/pythia-2.8b-deduped"

# --- 使用 BitsAndBytesConfig 定义 8-bit 量化配置 ---
bnb_config = BitsAndBytesConfig(
 load_in_8bit=True,
)

# 加载模型，并将量化配置传给 `quantization_config` 参数
model = AutoModelForCausalLM.from_pretrained(
 model_id,
 quantization_config=bnb_config,
 dtype=torch.float16,
 device_map="auto",
)

执行完这段代码后，如果打印 model 对象，你会看到模型架构的详细信息。其中，类似 (query_key_value): Linear8bitLt(in_features=2560, out_features=7680, bias=True) 的层表明，原始的 nn.Linear 已经被成功替换为 8-bit 量化版本 Linear8bitLt，说明模型加载和量化已成功完成。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


GPTNeoXForCausalLM(
 (gpt_neox): GPTNeoXModel(
 (embed_in): Embedding(50304, 2560)
 (emb_dropout): Dropout(p=0.0, inplace=False)
 (layers): ModuleList(
 (0-31): 32 x GPTNeoXLayer(
 (input_layernorm): LayerNorm((2560,), eps=1e-05, elementwise_affine=True)
 (post_attention_layernorm): LayerNorm((2560,), eps=1e-05, elementwise_affine=True)
 (post_attention_dropout): Dropout(p=0.0, inplace=False)
 (post_mlp_dropout): Dropout(p=0.0, inplace=False)
 (attention): GPTNeoXAttention(
 (query_key_value): Linear8bitLt(in_features=2560, out_features=7680, bias=True)
 (dense): Linear8bitLt(in_features=2560, out_features=2560, bias=True)
 )
 (mlp): GPTNeoXMLP(
 (dense_h_to_4h): Linear8bitLt(in_features=2560, out_features=10240, bias=True)
 (dense_4h_to_h): Linear8bitLt(in_features=10240, out_features=2560, bias=True)
 (act): GELUActivation()
 )
 )
 )
 (final_layer_norm): LayerNorm((2560,), eps=1e-05, elementwise_affine=True)
 (rotary_emb): GPTNeoXRotaryEmbedding()
 )
 (embed_out): Linear(in_features=2560, out_features=50304, bias=False)
)

模型加载完成后，加载其对应的分词器。对于 Pythia 这类模型，其分词器默认可能没有 pad_token。在进行批量训练时，数据整理器（Data Collator）要用 pad_token 将序列填充至相同长度，我们需要手动将其设置为 eos_token。

1
2
3


tokenizer = AutoTokenizer.from_pretrained(model_id)
# Pythia模型的tokenizer默认没有pad_token，我们将其设置为eos_token
tokenizer.pad_token = tokenizer.eos_token

3.2 模型预处理

在使用 peft 对 8-bit 量化模型进行微调之前，需要进行一些必要的预处理。peft 库提供了一个非常方便的函数 prepare_model_for_kbit_training 来完成这项工作。

在 PEFT 0.10.0 及更高版本中，原来的 prepare_model_for_int8_training 已被 prepare_model_for_kbit_training 替代，新函数同时支持 4-bit 和 8-bit 量化。

这个函数主要执行几个关键操作：

（1）类型转换：将模型中一些需要以更高精度（如 FP32）计算的层（例如 LayerNorm）进行类型转换，以保证训练的数值稳定性。

（2）启用梯度检查点：调用 model.gradient_checkpointing_enable()，这是一种用计算时间换取显存的技术。它在反向传播时会重新计算中间层的激活值，而不是将它们全部存储在显存中，从而显著降低了训练过程中的显存峰值。

（3）输出嵌入层预处理：对模型的输出嵌入层进行一些必要的处理，以使其与 LoRA 兼容。

（4）输入梯度处理：为需要的输入启用梯度，保证在冻结大部分权重且使用 k-bit 训练时的反向传播兼容性。

1
2
3
4


from peft import prepare_model_for_kbit_training

# 对量化后的模型进行预处理
model = prepare_model_for_kbit_training(model)

3.3 定义 LoRA 配置并创建 `PeftModel`

这是整个 PEFT 流程中最核心的一步。我们将应用刚才介绍的核心组件，实例化一个 LoraConfig 对象来声明 LoRA 微调的具体策略，然后使用 get_peft_model 函数将其应用到预处理过的基础模型上。

在 LoraConfig 中，会详细设置 LoRA 的各个超参数，这些参数的选择直接关系到微调的效果和效率，与在上节 LoRA 方法详解 中讨论的理论紧密相关：

r：LoRA 的秩。这是最关键的超参数之一。r 越大，意味着低秩矩阵的表达能力越强，可训练的参数也越多。但正如前文的实验所示，r 并非越大越好，过大的 r 可能会增加噪声，且会线性增加可训练参数量。通常建议从 8 或 16 开始尝试。
lora_alpha：LoRA 的缩放因子。在前文提到过，最终的权重更新量会以 alpha/r 的比例进行缩放。这意味着，lora_alpha 的值可以理解为对学习到的低秩矩阵的“增强系数”。一个常见的做法是将其设置为 r 的两倍。
target_modules：指定要将 LoRA 应用于模型中的哪些模块。这是一个非常关键的参数，因为不同模型的模块命名方式不同。

如何确定 target_modules？ 可以先打印出基础模型 model 的结构，并以其显示的层命名为准。对于大多数 Transformer 模型，注意力机制中的“查询（Query）”、“键（Key）”和“值（Value）”层（如 q_proj, k_proj, v_proj）是首选。而对于 Pythia 或 GPT-NeoX 系列模型，其注意力权重常被合并在一个 query_key_value 层中，前馈网络（FFN）中的线性层则常见 dense、dense_h_to_4h 和 dense_4h_to_h。将 LoRA 应用于这些层通常都能带来收益。
bias：偏置参数的训练方式。'none' 是最常用的设置，意味着不训练任何偏置参数，这与 LoRA 的原始思想保持一致，以最大化参数效率。在数据量充足的情况下，可以尝试 'lora_only'，仅训练 LoRA 模块自身的偏置。

LoraConfig 的其他参数（如 lora_dropout、task_type）也都提供了对微调过程的精细控制，具体代码如下。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


from peft import LoraConfig, get_peft_model

# 定义 LoRA 配置
config = LoraConfig(
 r=16,
 lora_alpha=32,
 target_modules=["query_key_value", "dense"],
 lora_dropout=0.05,
 bias="none",
 task_type="CAUSAL_LM",
)

# 应用配置，获得 PEFT 模型
peft_model = get_peft_model(model, config)
peft_model.print_trainable_parameters()

输出如下：

1

trainable params: 7,864,320 || all params: 2,783,073,280 || trainable%: 0.2826

通过前面提到的 print_trainable_parameters() 可以看到，可训练参数仅占总参数量的 0.28%。

3.4 数据处理

现在模型已经准备就绪，需要为它准备“教材”——也就是训练数据。本次微调的目标是让模型学会生成名人名言。这里将使用 Abirate/english_quotes 这个数据集，它包含了大量的英文名言。

数据处理流程如下：

加载数据集：使用 datasets 库从 Hugging Face Hub 下载数据集。
数据预处理：定义一个 tokenize 函数，该函数会接收一批数据，提取出所关心的 quote 字段，然后使用之前加载的分词器 tokenizer 对其进行编码，将其转换为模型可以理解的 input_ids。
应用处理：使用 dataset.map() 方法，将 tokenize 函数批量应用到整个数据集上。这是 datasets 库一个非常高效的特性。

首先，加载数据集并查看一条样本。

1
2
3
4
5
6
7


from datasets import load_dataset

# 加载数据集
quotes_dataset = load_dataset("Abirate/english_quotes")

# 查看数据集示例
quotes_dataset['train'][0]

输出显示了数据集的结构，包含 quote、author 和 tags 字段。

1
2
3
4
5
6
7
8


{'quote': '“Be yourself; everyone else is already taken.”',
 'author': 'Oscar Wilde',
 'tags': ['be-yourself',
 'gilbert-perreira',
 'honesty',
 'inspirational',
 'misattributed-oscar-wilde',
 'quote-investigator']}

接下来，定义分词函数并将其应用到整个数据集上。

1
2
3
4
5
6
7
8
9


# 定义分词函数
def tokenize_quotes(batch):
 # 只对 "quote" 列进行分词
 return tokenizer(batch["quote"], truncation=True)

# 对整个数据集进行分词处理
tokenized_quotes = quotes_dataset.map(tokenize_quotes, batched=True)

tokenized_quotes['train'][0]

处理后的数据集新增了模型所需的 input_ids 和 attention_mask 列。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


{'quote': '“Be yourself; everyone else is already taken.”',
 'author': 'Oscar Wilde',
 'tags': ['be-yourself',
 'gilbert-perreira',
 'honesty',
 'inspirational',
 'misattributed-oscar-wilde',
 'quote-investigator'],
 'input_ids': [1628, 4678, 4834, 28, 4130, 2010, 310, 2168, 2668, 1425],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

3.5 定义 Trainer 并开始训练

Trainer 是 transformers 库提供的一个高度抽象化的训练器，它封装了标准的 PyTorch 训练循环。只需通过 TrainingArguments 定义训练的“策略”，而无需手动编写繁琐的训练代码（如梯度更新、学习率调度、日志记录等）。

在 TrainingArguments 中，会设置一些关键的训练参数：

per_device_train_batch_size & gradient_accumulation_steps：这两个参数共同决定了有效批量大小（effective batch size）。per_device_train_batch_size 是指每个 GPU 单次前向传播处理的样本数，而 gradient_accumulation_steps 则指定了梯度累积的步数。有效批量大小 = per_device_train_batch_size * gradient_accumulation_steps * num_gpus。通过梯度累积，可以在显存有限的情况下，模拟出更大的批量大小，这通常有助于稳定训练过程。
warmup_steps: 学习率预热的步数。在训练初期，学习率会从一个很小的值线性增加到设定的 learning_rate，这能让模型在开始阶段更好地适应数据。
max_steps: 训练的总步数。为了快速演示，这里只训练 200 步。
learning_rate: 学习率，控制模型参数更新的幅度。
fp16: 启用 16-bit 混合精度训练。可以在不牺牲太多性能的情况下，进一步减少显存占用并加速训练。

最关键的是，将之前创建的 PeftModel 实例直接传递给 Trainer。Trainer 会足够智能，自动识别出只有 LoRA 相关的参数是可训练的，并在训练时冻结所有其他参数。

除了上述基础参数外，还有两个关于训练策略的要点值得注意：

max_steps vs num_train_epochs：TrainingArguments 允许通过设置 max_steps（总训练步数）或 num_train_epochs（总训练轮数）来控制训练的总长度。在快速原型验证或演示时，使用 max_steps 可以精确控制训练量，便于快速看到结果。在正式的项目中，使用 num_train_epochs 更为常见，它能确保模型完整地学习过所有训练数据指定的轮数。
验证集的缺失：在专业的训练流程中，通常会从数据集中划分出一部分作为验证集，并在 TrainingArguments 中通过 evaluation_strategy 参数设置评估时机（例如，每 N 步或每个 epoch 结束后），以便监控模型是否过拟合，并据此进行早停等操作。为了简化演示流程，本教程省略了这一环节。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling

# 推荐操作：关闭缓存可提高训练效率
peft_model.config.use_cache = False

# 定义训练参数
train_args = TrainingArguments(
 per_device_train_batch_size=4,
 gradient_accumulation_steps=4,
 warmup_steps=100,
 max_steps=200,
 learning_rate=2e-4,
 fp16=True, # 启用混合精度训练
 logging_steps=1,
 output_dir="outputs",
)

# 数据整理器，用于处理批量数据
quote_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

# 实例化 Trainer
trainer = Trainer(
 model=peft_model,
 train_dataset=tokenized_quotes["train"],
 args=train_args,
 data_collator=quote_collator,
)

# 开始训练
trainer.train()

执行 trainer.train() 后，控制台会实时打印训练日志。训练完成后，train 方法会返回一个包含所有训练指标的 TrainOutput 对象，方便进行分析和记录。

3.6 模型保存与推理

训练完成后，可以将学到的知识——也就是轻量的 LoRA 适配器保存下来，以备后续使用。

对 PeftModel（即 peft_model）调用 save_pretrained() 时，peft 会只保存增量的、可训练的适配器权重，而不是整个庞大的基础模型。通常，保存下来的文件（adapter_model.safetensors 和 adapter_config.json）只有几十 MB。

合并权重

正如上节中所讨论的，LoRA 的一个核心优势是它不会在推理时引入额外的延迟。这是因为它训练出的旁路矩阵 $A$ 和 $B$ 可以被 合并（merge） 回原始的权重矩阵中。训练完成后，可以调用 merged_model = peft_model.merge_and_unload() 方法，它会返回一个标准的 transformers 模型，其权重已经包含了 LoRA 的更新。这个 merged_model 的结构与原始模型完全一致，所以可以像任何普通模型一样进行部署，而没有任何额外的计算开销。若基础模型以 8/4-bit 量化加载，合并后返回的标准模型通常会转为 FP16/FP32；若需继续以 k-bit 部署，可在合并后按需重新量化。

为了验证微调的效果，可以进行一次推理测试，观察模型在续写名言开头的表现。为了获得最佳的推理效果并避免警告，需要注意以下几点：

传递 attention_mask：显式传递 attention_mask，确保模型能够正确识别有效的 token。
启用采样：设置 do_sample=True 以启用温度采样和核采样参数。
启用 use_cache：推理前将 use_cache=True 可提升生成效率；训练阶段通常配合梯度检查点将其关闭。

生成参数说明：

max_length: 生成文本的最大长度（包括输入）。
do_sample: 是否使用采样策略。设置为 True 时，temperature、top_p、top_k 才会生效。
temperature: 控制生成的随机性。较低的值（如 0.6）会使生成更具确定性，而较高的值则会增加多样性。
top_p: 核采样的概率阈值。只考虑累积概率达到 top_p 的最小 token 集合。
top_k: 每步只从概率最高的 k 个 token 中采样。
repetition_penalty: 重复惩罚因子，大于 1.0 会降低重复内容的概率。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32


# 将模型设置为评估模式
peft_model.eval()

# 设置 pad_token_id 到模型配置中
peft_model.config.pad_token_id = tokenizer.pad_token_id

prompt = "Be yourself; everyone"

# 对输入进行分词，并获取 attention_mask
inputs = tokenizer(prompt, return_tensors="pt")
input_ids = inputs["input_ids"].to(peft_model.device)
attention_mask = inputs["attention_mask"].to(peft_model.device)

# 生成文本
with torch.no_grad():
 # 使用 autocast 提高混合精度推理的效率
 with torch.amp.autocast('cuda'):
 outputs = peft_model.generate(
 input_ids=input_ids,
 attention_mask=attention_mask,
 max_length=50,
 do_sample=True,
 temperature=0.6,
 top_p=0.95,
 top_k=40,
 repetition_penalty=1.2,
 pad_token_id=tokenizer.pad_token_id
 )

# 解码并打印结果
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
decoded_output

输出如下：

1

'Be yourself; everyone else is taken.” - Oscar Wilde"I have found that people will forget what you said, people will forget what you did, but people will never forget how you made them feel” Maya Angelou“The worst thing we'

从输出可以看到，模型成功地补全了这句来自奥斯卡·王尔德的名言，并且还继续生成了另一句风格相似的名言。这表明，仅仅通过200步的微调，模型就已经从数据集中大致学习到了名言的风格和内容，证明了 PEFT 方法的高效性。

模型输出的非确定性

大语言模型输出的非确定性主要来源于解码阶段的采样策略。当 do_sample=True 时，模型会根据计算出的词汇表概率分布进行随机抽样，而不是像确定性的贪心搜索那样总是选择概率最高的词。temperature、top_p 等参数正是用来调节这种抽样过程的随机程度的。

所以，这些采样参数是引入输出多样性的主要和意图性 的来源。除此之外，底层的CUDA算子、浮点数计算精度等因素也可能导致即使在固定随机种子的情况下，两次运行结果仍存在微小差异，但这并非主要原因。在本地运行时得到与文档不完全相同的结果，属于正常现象。

参考文献

Hugging Face PEFT Documentation. (2024). ↩︎

参数高效微调（PEFT）技术综述

Wed, 25 Mar 2026 22:36:25 -0800

参数高效微调（PEFT）技术综述

从本章开始，我们将步入对大模型微调的学习。之所以将 PEFT 作为学习的起点，是因为它不仅是当前应对大模型训练高昂成本的主流解决方案，更代表了我们与超大模型互动和应用范式上的一次重要变革。理解 PEFT，是掌握如何在资源有限的条件下，高效、灵活地驾驭大模型强大能力的关键第一步。

一、大模型时代的“微调”困境

自 BERT 模型发布以来，“预训练-微调”（Pre-train and Fine-tune）的范式在自然语言处理领域取得了巨大成功。不过，当模型参数规模从 BERT 的数亿级别跃升至 GPT-3 的千亿级别时，传统的全量微调（Full Fine-Tuning）遇到了挑战：

高昂的训练成本：微调一个千亿参数的大模型需要巨大的计算资源（数百 GB 的显存）和时间成本，这对于绝大多数开发者和企业来说是遥不可及的。
巨大的存储压力：如果为每一个下游任务都保存一份完整的、千亿级别的模型副本，将导致难以承受的存储开销。
灾难性遗忘：在针对特定任务进行微调时，模型很可能会“忘记”在预训练阶段学到的海量通用知识，损害其泛化能力。
训练不稳定性：大模型的网络结构“又宽又深”，其训练过程对学习率等超参数极为敏感，很容易出现梯度消失/爆炸等问题，导致训练失败。

面对这些困境，研究者们迫切需要一种新的范式，既能有效利用大模型的强大能力，又能避免全量微调带来的高昂成本。

1.1 “提示”范式的兴起与局限

2020 年 GPT-3 论文带来了一种全新的、无需训练的范式——In-Context Learning ¹。研究者们惊喜地发现，在不调整任何模型参数的情况下，仅通过在输入中提供一些任务示例（即 提示 Prompt），就能引导大模型完成特定任务。这一发现迅速催生了“提示工程”（Prompt Engineering）的繁荣。用户通过组合各种关键词、权重和特殊符号，像“炼金术士”一样探索和“召唤”AI 的强大能力。这种人工设计的、离散的文本指令，我们称之为“硬提示”（Hard Prompt）。

但是，“硬提示”这种“刀耕火种”式的方法存在三个明显的局限。找到最优的提示词往往需要大量的试错和经验，过程繁琐且不稳定，充满了“玄学”；离散的文本提示在表达能力上存在上限，难以充分激发和精确控制大模型的潜力；而且在一个模型上精心设计的提示，换到另一个模型或另一种语言上，效果可能大打折扣。

1.2 参数高效微调的诞生

如何找到一种既能有效利用大模型能力，又不必承受全量微调高昂成本的方法？学术界和工业界开始探索一种全新的方法——参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）。

核心思想：冻结（freeze） 预训练模型 99% 以上的参数，仅调整其中极小一部分（通常<1%）的参数，或者增加一些额外的“小参数”，从而以极低的成本让模型适应下游任务。

PEFT 的思想借鉴了计算机视觉领域的迁移学习（Transfer Learning）。在 CV 任务中，我们通常会冻结预训练模型（如 ResNet）负责提取通用特征的卷积层，仅微调后面的全连接层来适应新的分类任务。PEFT 将这一思想应用于 Transformer 架构，并发展出多条技术路线。

二、PEFT 技术发展脉络

2.1 Adapter Tuning

Adapter Tuning 是 PEFT 领域的开创性工作之一，由 Google 在 2019 年为 BERT 模型设计 ²。其思路是在 Transformer 的每个块中插入小型的“适配器”（Adapter）模块。如图 11-1 所示，左侧的 Transformer 层展示了 Adapter 模块是如何被集成进去的。Adapter 被插入到每个子层（注意力层和前馈网络）的内部，并与主干网络形成残差连接。在训练时，只有 Adapter 模块的参数会被更新。

图 11-1 Adapter Tuning 结构

图 11-1 的右侧展示了 Adapter 模块自身的结构，主要包括一个“降维”的全连接层（Feedforward down-project）将高维特征映射到低维空间，一个非线性激活函数（Nonlinearity），一个“升维”的全连接层（Feedforward up-project）再将特征映射回原始维度，以及一个贯穿该模块的残差连接将模块的输出与原始输入相加，保证信息流的稳定。通过这种“瓶颈式”的结构，Adapter 模块可以用极少的参数量来模拟特定任务的知识。这种方法不仅参数效率高、训练稳定，而且性能上能接近全量微调。相比全量微调，能够明显降低可训练参数与优化器状态占用。但由于各层插入了额外模块，训练时仍会带来一定的激活内存与算力开销，在千亿级规模且资源受限的条件下，工程实现更具挑战。

2.2 Prefix Tuning

2021 年，斯坦福大学的研究者提出了 Prefix Tuning，为 PEFT 开辟了一条全新的思路 ³。与 Adapter 在模型内部“动手术”不同，Prefix Tuning 选择在模型外部做文章，就像是给模型带上了一张“小抄”。图 11-2 是一个注解示例，揭示了 Prefix Tuning 的工作细节。该图分别展示了 Prefix Tuning 在自回归语言模型（上）和编码器-解码器模型（下）中的应用。它的核心机制在于：

前缀激活值（Prefix Activations）：图中 PREFIX 部分对应的激活值 $h_i$（其中 $i ∈ P_idx$）是从一个专门的可训练矩阵 $P_{\theta}$ 中提取的，这部分参数就是微调的对象。
模型计算的激活值: 而原始输入 $x$ 和输出 $y$ 对应的激活值，则是由冻结的 Transformer 模型正常计算得出的。

图 11-2 Prefix Tuning 注解示例

通过这种方式，模型在不改变原有参数的情况下，学会利用这些可控的“前缀”来引导后续内容的生成，从而适应新的任务。同时，为了达到更好的效果，Prefix Tuning 不仅在输入层添加前缀，还在 Transformer 的每一层都添加了对应的可学习 Prefix，并通过一个小型的前馈网络（MLP）来生成这些参数。这种方法的优点是具有较高的参数效率，仅需优化极少数 Prefix 参数而无需改动原模型；它对显存较为友好，因不更新原模型权重，训练时无需维护优化器状态，能显著降低显存与存储开销（尽管需为各层前缀的 K/V 额外预留显存）；而且，它的通用性强，在自回归模型（如 GPT-2）和编解码模型（如 T5/BART）上均取得了不错的效果。不过，Prefix Tuning 也存在一些缺点，直接优化 Prefix 向量比微调 Adapter 更困难，训练相对不稳定，对超参数和初始化较为敏感；同时，多数实现将前缀作为各层注意力的额外 K/V 记忆，其长度通常计入注意力配额，可能会减少可用的有效上下文窗口。

2.3 Prompt Tuning

Prefix Tuning 虽然强大，但其复杂的训练过程和在每一层都添加参数的设计，在实践中不够便捷。同年，Google 提出了 Prompt Tuning，可以看作是 Prefix Tuning 的一个简化版 ⁴。这种方法也被称为一种“软提示”。它的做法就是只在输入的 Embedding 层添加可学习的虚拟 Token（称为 Soft Prompt），不再干预 Transformer 的任何中间层。图 11-3 直观地展示了 Prompt Tuning 这种简化思路在实践中所带来的巨大差异，它不仅是参数效率的提升，更在使用范式上迈出了新的一步。

（1）左侧：全量微调：作为性能基准，这种方法遵循“一个任务，一个模型”的模式。针对每一个下游任务（Task A, B, C），都需要用其专属的数据集，对庞大的预训练模型（图中为 110 亿参数）进行完整的微调。最终会得到 N 个与原模型同样大小的任务专属模型副本，导致巨大的存储和部署开销。

（2）右侧：提示微调：它将 PEFT 的效率思想发挥得更加充分，将任务知识完全“外置”到一个轻量级的提示（Prompt）中。实践中可便利地实现混合任务批处理（Mixed-task Batch），便于共享同一冻结模型并提升训练吞吐；多任务训练并非 Prompt Tuning 所独有，但其实现较为简洁。我们可以通过一个具体的例子来理解这个过程：

定义任务：假设我们有三个不同的任务类型。任务 A 是情感分析，任务 B 是问答，任务 C 是 文章摘要。
准备数据：任务 A 的一条数据 a1 可能是一句影评：“这部电影拍得真不错！”。任务 B 的数据 b1 可能是一个问答对：“上下文：‘Datawhale是一个专注于AI与数据科学的开源组织。’ 问题：‘Datawhale是什么？’”。
拼接提示进行训练：在训练时，我们会为 a1 这条数据前，拼接上专门为“情感分析”任务学习的、可训练的 Soft Prompt A。这个 Soft Prompt A 并非一段人类可读的文本指令（如“请分析情感”），而是一组可通过反向传播优化的、连续的向量（Embeddings）。可以把它理解为一把能解锁大模型特定能力的“钥匙”：在训练时，它可能由“情感”、“正面”、“负面”等词的向量来初始化，并最终被模型自动微调成最优的、能够高效引导模型执行情感分析任务的“虚拟指令”。同理，为 b1 数据拼接上为“问答”任务学习的 Soft Prompt B。如图所示，这些来自不同任务、但都已拼接好各自 Soft Prompt 的数据，可以被组合成一个混合批次，然后一起送入同一个、完全冻结的大语言模型进行训练。模型通过反向传播，只会更新 Soft Prompt A 和 Soft Prompt B 的参数，而自身权重保持不变。

结果就是训练对象只是微型的任务提示（参数规模通常为万级，取决于提示长度与嵌入维度），而大模型（11B 参数）始终冻结并被所有任务共享。最终产出的是几个极小的提示文件，而非庞大的模型副本。这种非侵入式的方法实现起来极为简单，达到了很高的参数与存储效率，为实现单一模型服务多种下游任务提供了可能。

图 11-3 Model Tuning 与 Prompt Tuning 对比

此外，这篇论文最重要的发现是模型规模的缩放效应（The Power of Scale）。如图 11-4 所示，实验表明当模型规模较小（如 1 亿参数）时，Prompt Tuning 的效果（绿线）远不如传统的模型微调（红线和橙线）。但当模型规模超过 100 亿时，Prompt Tuning 的性能开始追平甚至超越全量微调。

图 11-4 Prompt Tuning 性能与模型规模的关系

这个发现说明只要模型“足够大”，我们就不再需要复杂的、侵入式的微调技术，仅通过学习一个微型的 Soft Prompt，就能让大模型涌现出强大的任务适应能力。然而，这也揭示了 Prompt Tuning 的局限，它的成功强依赖于模型的规模，在中小型模型上效果并不好。

三、P-Tuning v2

Prompt Tuning 虽然足够高效，但它的稳定性较差，且严重依赖超大模型的规模，这限制了其在更广泛场景中的应用。为了解决这些问题，由清华大学团队主导的 P-Tuning 系列工作，对软提示进行了深入优化，最终发展出了效果更强、更通用的 P-Tuning v2。

3.1 P-Tuning 的主要逻辑

为了理解 P-Tuning v2 的精髓，我们首先需要了解其前身 P-Tuning v1。v1 的主要目标是解决离散提示（Discrete Prompts） 的“不稳定性”问题 ⁵。

如图 11-5 所示，P-Tuning v1 将自己与传统的离散提示搜索方法进行了对比：

（a）离散提示搜索：这类方法试图在离散的文本空间中找到最优的提示词组合。这种搜索过程通常只能依赖离散的奖励信号，优化非常困难且不稳定，找到的解往往是次优的。
（b）P-Tuning：它提出，不应该在离散空间搜索，而应该在连续空间中进行优化。为此，P-Tuning v1 引入了一个关键组件——Prompt Encoder。它的逻辑是先定义一组可学习的、连续的伪提示（Pseudo Prompts），例如 $[P_0], …, [P_m]$，然后将这些伪提示作为输入，送入一个小型神经网络（如 LSTM）构成的 Prompt Encoder。Prompt Encoder 会将这些伪提示编码，捕捉它们之间的依赖关系，并生成最终作为大模型输入的任务相关向量 $h_0, …, h_m$。

图 11-5 离散提示搜索与 P-Tuning 对比

通过这种方式，Prompt Encoder 及其输入的伪提示，都可以通过反向传播进行端到端的优化。这从根本上改变了寻找最优提示的方式：从“人工试错”变成了可以通过“梯度下降”来自动化求解的数学问题，大幅提升了优化的稳定性和最终效果。我们可以结合上图的具体案例来理解一下。图中展示了一个首都预测任务，输入实体是 “Britain”（英国），目标输出是 “London”（伦敦）。

（1）传统离散提示：我们需要精心设计一个自然语言模板，例如 "The capital of Britain is [MASK]"。在这个模板中，"The", "capital", "of", "is" 这些词是固定的、离散的 Token。如果我们将模板换成 "Britain's capital city is [MASK]"，模型的输出效果可能会发生剧烈变化。这种对提示词的敏感性使得找到“最佳模板”变得很困难。

（2）P-Tuning：P-Tuning 放弃了寻找具体的离散单词，而是引入了一组连续的伪 Token（Pseudo Tokens），我们将其标记为 $[h_0, h_1, …, h_i]$。这时，输入给模型的序列可能变成了这样：

$$[h_0, h_1, ..., h_i], \text{"capital"}, \text{"Britain"}, [h_{i+1}, ..., h_m], \text{[MASK]}$$

这里的 $h$ 并不是词表里的某个具体单词，而是可训练的向量参数。在训练开始时，这些向量可能只是随机初始化的，或者用 “The capital of” 对应词向量进行初始化。随后在训练过程中，通过反向传播算法，这些 $h$ 向量会在连续的向量空间中不断调整数值。最终，它们会收敛为一组人类无法直接阅读（因为它们不对应具体的词），但对模型来说最优的提示特征。这组特征能比任何人工设计的离散句子更准确地激发模型输出 “London”。就好比我们不再试图用字典里有限的词汇去拼凑一句“咒语”，而是直接把钥匙（提示向量）打磨成最契合锁孔（模型参数）的形状，以此打开模型知识库的大门。

但是，P-Tuning v1 仍然存在两个问题。它对模型规模较为敏感（在较小模型上收益有限，而在更大模型上更稳定、更具优势），并且在一些复杂的自然语言理解（NLU）任务（特别是序列标注）上表现不佳。

3.2 P-Tuning v2 的演进

2021 年底问世的 P-Tuning v2，就是为了解决 v1 的局限性而设计的 ⁶。它博采众长，吸收了 Prefix Tuning 的思想，最终成为一种在不同模型规模、不同任务上都表现出色的通用 PEFT 方案。

我们可以对照图 11-6，来详细拆解这一演进过程。这张图对比了 P-Tuning v1（图 a）和 P-Tuning v2（图 b）在架构上的本质区别。

图 11-6 P-Tuning v1 与 P-Tuning v2 的结构对比

（1）P-Tuning v1 的瓶颈：注意图（a）中橙色的提示向量 $h_0, \dots, h_i$ 的位置。

浅层提示（Shallow Prompting）：提示向量仅被插入到输入层。这意味着提示信息必须经过 Transformer 所有层的层层传递，对模型深层行为的影响力非常有限。也就解释了为什么 P-Tuning v1 和 Prompt Tuning 这类技术在中小规模模型上效果远不如全量微调，往往只有在模型参数规模足够大（具备极强的内在通用能力）时，才能仅靠输入层的微调获得不错的效果。
任务局限（Verbalizer）：观察输出端的 Verbalizer。第一代技术为了利用预训练目标，强行将所有任务都包装成“完形填空”问题（Masked Language Modeling）。比如做情感分类，必须让模型预测 “good” 或 “bad” 这样的词，再映射回标签。这在处理分类任务时还能应付，但面对序列标注或抽取式阅读理解这种需要对每个 Token 进行细粒度分类的复杂任务时，设计 Verbalizer 就变得极其困难甚至不可能。

（2）P-Tuning v2 的演进：P-Tuning v2 针对上述两个痛点进行了改进，其结构如图（b）所示。

深层提示（Deep Prompting）：可以看到图（b）左侧的橙色箭头。提示向量不再只停留在输入层，而是被复制并独立注入到 Transformer 的每一层（Layer 1 Prompts, Layer 2 Prompts…）。这借鉴了 Prefix Tuning 的多层设计。现在，每一层的 Transformer 块都能直接接收到可学习的提示信息。相当于给模型开了“后门”，在每一层都进行直接引导。这种设计大幅增强了提示对模型的控制力。即使是小模型，深层提示也能发挥显著作用。
回归传统分类头（No Verbalizer）：我们来看看图（b）下方的输出端，它抛弃了复杂的 Verbalizer，直接换回了传统的 Class Label (with linear head)。既然我们已经通过 Deep Prompting 获得了足够的控制力，就不再需要强行迎合预训练任务了。对于分类或序列标注任务，我们可以直接在最后一层接一个简单的线性层（Linear Head），像传统微调（Fine-tuning）一样直接输出标签。通过这种机制，P-Tuning v2 瞬间拥有了处理复杂任务的能力。它不再受限于“填空题”的格式，可以轻松应用于各类复杂任务。

所以 P-Tuning v2 其实就是做了一个巧妙的融合，包含了 Prefix Tuning 的多层结构 + 传统微调的输出头 + Prompt Tuning 的轻量化。它既保留了 PEFT 参数高效的优势（仅需微调 0.1%~3% 的参数），又找回了全量微调在复杂任务上的通用性和在小模型上的稳定性。

PEFT on 酒中仙

基于 peft 库的 LoRA 实战

基于 peft 库的 LoRA 实战

一、peft 库的设计理念

二、peft 库的核心组件

2.1 声明式配置 PeftConfig

2.2 动态注入生成 PeftModel

三、LoRA 微调实战流程

3.1 加载依赖、基础模型与分词器

3.2 模型预处理

3.3 定义 LoRA 配置并创建 PeftModel

3.4 数据处理

3.5 定义 Trainer 并开始训练

3.6 模型保存与推理

参考文献

参数高效微调（PEFT）技术综述

参数高效微调（PEFT）技术综述

一、大模型时代的“微调”困境

1.1 “提示”范式的兴起与局限

1.2 参数高效微调的诞生

二、PEFT 技术发展脉络

2.1 Adapter Tuning

2.2 Prefix Tuning

2.3 Prompt Tuning

三、P-Tuning v2

3.1 P-Tuning 的主要逻辑

3.2 P-Tuning v2 的演进

参考文献

一、`peft` 库的设计理念

二、`peft` 库的核心组件

3.3 定义 LoRA 配置并创建 `PeftModel`