Tags
2 个页面
RLHF
基于 LLaMA-Factory 的RLHF(DPO)实战
基于人类反馈的强化学习(RLHF) 技术详解