PEFT (参数高效微调)

什么是 PEFT？

参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 是一组技术，用于在不重新训练所有参数的情况下微调大语言模型 (LLM)。PEFT 不是更新数十亿个权重，而是仅更新一小部分（通常 < 1%）添加的参数。

核心思想: 冻结大规模预训练模型，仅训练小的适配器层 (adapter layers)。

好处:

更低的硬件成本: 可以在消费级 GPU 上运行（例如，单个 RTX 4090 而不是 A100 集群）。
存储效率: "适配器" 是小文件 (MBs) vs 完整模型 (GBs)。
多租户: 你可以服务一个基础模型，并即时为不同的用户/任务交换小的适配器。

LoRA (低秩适应)

LoRA (Low-Rank Adaptation) 是最流行的 PEFT 技术。

工作原理: 它将小的“低秩分解矩阵”注入模型中，并仅训练这些矩阵。
类比: 想象编辑一本书。不是重写整本书（全量微调），你只是在便利贴上写下你的编辑，并将它们贴在页面上（LoRA）。阅读时，你阅读原始页面 + 便利贴。

公司何时使用 PEFT

具有成本效益的定制: 当他们需要针对特定任务（例如，“SQL 生成器”）的自定义模型，但无法承担训练完整 70B 参数模型的费用时。
隐私/本地部署: 在本地硬件上运行微调过的开源模型（Llama 3, Mistral）。
个性化 AI: 创建数千个特定于用户的模型（例如，每个用户一个风格适配器），共享同一个基础模型。

前端相关性

运行本地 LLM

如果你使用 Ollama 或 LM Studio 等工具，你通常是在下载“量化”模型或应用 LoRA 适配器。了解 PEFT 有助于你理解为什么你可以在 MacBook 上运行强大的 AI。

延伸阅读