Categories

38 个页面

NLP

模型量化实战

基于 LLaMA-Factory 的RLHF（DPO）实战

基于人类反馈的强化学习（RLHF）技术详解

学术论文批量翻译

基于 peft 库的 LoRA 实战

使用 Qwen2.5 微调私有数据

低秩近似（LoRA）方法详解

参数高效微调（PEFT）技术综述