📚
文档 & 知识

团体 Rl 培训

@grpo-rl-training

使用 Transformer 强化学习 (TRL) 库实施组相对策略优化 (GRPO) 的专家级指南。该技能提供了经过实战检验的模式、关键见解和可用于生产的工作流程,用于通过自定义奖励函数微调语言模型。

包含技能

1 个
📚
团体 Rl 培训
@zechenzhangagi/ai-research-skills/grpo-rl-training

使用 Transformer 强化学习 (TRL) 库实施组相对策略优化 (GRPO) 的专家级指南。该技能提供了经过实战检验的模式、关键见解和可用于生产的工作流程,用于通过自定义奖励函数微调语言模型。

🚀 如何安装技能包 请下载安装 AiOffice 客户端,
如果已下载AiOffice,
请在 AiOffice 的技能广场页面进行一键安装。