@slime-user
SLIME 是 THUDM 开发的用于 RL Scaling 的 LLM 后培训框架。它支持各种 RL 算法(GRPO、GSPO、PPO、Reinforce++)、多个训练后端(Megatron、FSDP)以及多轮交互、工具调用和动态采样等高级功能。
SLIME 是 THUDM 开发的用于 RL Scaling 的 LLM 后培训框架。它支持各种 RL 算法(GRPO、GSPO、PPO、Reinforce++)、多个训练后端(Megatron、FSDP)以及多轮交互、工具调用和动态采样等高级功能。