📦
通用工具

史莱姆使用者

@slime-user

SLIME 是 THUDM 开发的用于 RL Scaling 的 LLM 后培训框架。它支持各种 RL 算法(GRPO、GSPO、PPO、Reinforce++)、多个训练后端(Megatron、FSDP)以及多轮交互、工具调用和动态采样等高级功能。

包含技能

1 个
📦
史莱姆使用者
@yzlnew/infra-skills/slime-user

SLIME 是 THUDM 开发的用于 RL Scaling 的 LLM 后培训框架。它支持各种 RL 算法(GRPO、GSPO、PPO、Reinforce++)、多个训练后端(Megatron、FSDP)以及多轮交互、工具调用和动态采样等高级功能。

🚀 如何安装技能包 请下载安装 AiOffice 客户端,
如果已下载AiOffice,
请在 AiOffice 的技能广场页面进行一键安装。