# SLIME 用户指南 SLIME 是 THUDM 开发的用于 RL Scaling 的 LLM 后培训框架。它支持各种 RL 算法（GRPO、GSPO、PPO、Reinforce++）、多个训练后端（Megatron、FSDP）以及多轮交互、工具调用和动态采样等高级功能。 ## 快速启动工作流程 ### 对于初次用户 1. **环境设置** * 使用 Docker: `docker pull slimerl/slime:latest` * 或从源代码构建：请参阅 `docs/en/get_started/quick_start.md` * 硬件：支持H100/H200、B200系列 2. **下载模型和数据** hf 下载 Qwen/Qwen3-4B --local-dir /root/Qwen3-4B hf download --repo-type数据集zhuzilin/dapo-math-17k --local-dir /root/dapo-math-17k 3. **转换权重**（仅限威震天后端）源脚本/models/qwen3-4B.sh PYTHONPATH=/root/Megatron-LM python tools/convert_hf_to_torch_dist.py \ ${MODEL_ARGS[@]} \ --hf-checkpoint /root/Qwen3-4B \ --保存/root/Qwen3-4B_torch_dist 4. **跑步训练** bash脚本/run-qwen3-4B.sh ### 对于有经验的用户当用户需要特定功能时： * **多回合/工具调用** : 阅读 [references/examples_reference.md]() Search-R1 部分 * **自定义奖励模型** ：请参阅示例参考中的自定义 RM 模式 * **FSDP 而不是 Megatron** ：使用 `--train-backend fsdp`，跳过权重转换 * **大规模训练** ：参见多节点示例（GLM-4.5、DeepSeek-R1） * **源代码探索** : 检查 [references/source_code_reference.md]() ## 文档导航 SLIME 有大量的文档。使用本指南可以快速找到您需要的内容。 ### 基本文档（首先阅读这些） 1. **快速入门指南** : `docs/en/get_started/quick_start.md` \- 设置和第一次训练运行 2. **使用指南** : `docs/en/get_started/usage.md` \- 综合参数参考 3. **示例文档**：`docs/en/examples/qwen3-4B.md` 或 `docs/en/examples/glm4-9B.md` 有关所有文档的详细导航，请参阅 [references/doc_navigation.md]()。 ### 常见任务 → 文档映射任务|文档 ---|--- 首次设置 | `docs/en/get_started/quick_start.md` 了解参数 | `docs/en/get_started/usage.md` 基础训练（8 个 GPU）| `docs/en/examples/qwen3-4B.md` 多回转刀具的使用| `示例/搜索-r1/` 自定义生成逻辑 | `docs/en/get_started/customization.md` 多节点训练 | `docs/en/examples/glm4.5-355B-A32B.md` FSDP 后端 | `docs/en/get_started/usage.md`（FSDP 部分） VLM培训| `示例/geo3k_vlm/` 故障排除 | `docs/en/get_started/qa.md` ## 核心概念 ### 训练循环 SLIME 使用“Rollout → Train”循环： 1. **推出** ：使用 SGLang 推理生成响应 2. **奖励** ：使用奖励模型计算奖励 3. **训练**：使用Megatron/FSDP更新模型权重 4. 重复 `--num-rollout` 迭代 ### 关键约束 rollout-batch-size × n-samples-per-prompt = global-batch-size × num-steps-per-rollout ### 资源分配模式 **共置**（训练和推理共享 GPU）： --actor-num-nodes 1 \ --actor-num-gpus-per-node 8 \ --并置\ --sglang-mem-fraction-static 0.7 **分解**（用于训练/推理的单独 GPU）： --actor-num-nodes 1 \ --actor-num-gpus-per-node 4 \ --rollout-num-gpus 4 ## 参数快速参考 ### 基本参数 **模型加载**： * `--hf-checkpoint`：HuggingFace 模型路径（对于 SGLang 和 FSDP） * `--ref-load`：威震天参考模型检查点 * `--load`：威震天演员检查点（恢复训练） * `--save`: 检查点的保存路径 **数据**： * `--prompt-data`: JSONL数据集路径 * `--input-key`：提示的字段名称（默认值：“prompt”） * `--label-key`：标签的字段名称（默认值：“label”） * `--metadata-key`：元数据的字段名称（默认值：“metadata”） * `--apply-chat-template`: 应用分词器聊天模板 **推出**： * `--rollout-batch-size`：每次推出时的提示 * `--n-samples-per-prompt`：每个提示的响应 * `--rollout-max-response-len`: 最大响应长度 * `--rollout-温度`: 采样温度 **培训**： * `--num-rollout`: 总训练迭代次数 * `--num-steps-per-rollout`：每次推出的优化器步骤（默认值：1） * `--global-batch-size`：每个优化器步骤的样本 * `--advantage-estimator`：RL算法（grpo、gspo、ppo、reinforce_plus_plus） **奖励模式**： * `--rm-type`：内置 RM 类型（例如“deepscaler”） * `--custom-rm-path`: 自定义 RM 函数路径 **后端**： * `--train-backend`：训练后端（megatron 或 fsdp） * `--rollout-num-gpus-per-engine`：每个 SGLang 引擎的 GPU（如 tp_size）完整的参数参考，请参见“docs/en/get_started/usage.md”。 ## 常见工作流程 ### 1\.标准单轮训练使用示例脚本作为模板： * `scripts/run-qwen3-4B.sh`：基本 8xH100 设置 * `scripts/run-glm4-9B.sh`: 动态采样脚本中的关键部分： # 加载模型配置源脚本/models/qwen3-4B.sh # 配置检查点 CKPT_ARGS=(--hf-checkpoint /root/Qwen3-4B ...) # 配置推出 ROLLOUT_ARGS=( --rollout-batch-size 32 --每个提示 n 个样本 8 --rm型深度缩放器） # 配置算法 GRPO_ARGS=(--优势估计器 grpo ...) # 运行训练 ray 作业提交 ... -- python3 train.py \ ${MODEL_ARGS[@]} ${CKPT_ARGS[@]} ${ROLLOUT_ARGS[@]} ... ### 2\.多转刀具调用对于多回合场景（如Search-R1）： 1. **使用元数据准备数据**： { "question": "用户查询", "final_answer": "预期答案", "元数据": "{\"session_id\": \"123\", \"tool_code\": \"...\"}" } 2. **实现自定义生成功能** : 异步 def 生成（args，样本：样本，sampling_params）->样本：对于转弯范围（max_turns）： # 生成动作 model_output = 等待 call_sglang(...) Sample.loss_mask += [1] * len(model_tokens) # 训练动作 # 执行工具 tool_output = 等待execute_tool(...) sample.loss_mask += [0] * len(tool_tokens) # 屏蔽工具输出如果动作==“答案”：打破样本.令牌=提示令牌+响应令牌样本.response_length = len(response_tokens) 返回样品 3. **配置自定义功能**： --custom-generate-function-path my_module.generate \ --custom-rm-path my_module.reward_func \ --metadata-键元数据有关完整示例，请参阅“examples/search-r1/”。 ### 3\.动态采样（DAPO 式）在生成过程中过滤低质量样本： ROLLOUT_ARGS+=( --过采样批量大小 64 \ --rollout-batch-size 32 \ --动态采样过滤器路径 \ slime.rollout.filter_hub.dynamic_sampling_filters.check_reward_nonzero_std ）工作原理： * 采样 64 个提示（过采样） * 根据奖励多样性过滤群组 * 只保留 32 个提示 × 8 个通过过滤的样本 * 如果过滤掉太多则自动重新采样 ### 4\. FSDP 后端（无权重转换） --train-backend fsdp \ --hf-checkpoint /root/Qwen3-4B \ --梯度检查点 \ --上下文并行大小 2 好处： * 无需 HF → 威震天重量转换 * 直接加载HuggingFace检查点 * 支持的型号设置更简单请参阅“examples/geo3k_vlm/”和“docs/en/get_started/usage.md” FSDP 部分。 ### 5\.多节点训练 1.启动Ray集群： # 头节点射线开始 --head --node-ip-address ${MASTER_ADDR} --num-gpus 8 # 工作节点光线开始 --address=${MASTER_ADDR}:6379 --num-gpus 8 2. 提交作业：射线作业提交--address =“http://127.0.0.1:8265”\ --runtime-env-json='{"env_vars": {"PYTHONPATH": "/root/Megatron-LM/"}}' \ -- python3 train.py \ --actor-num-nodes 8 \ --actor-num-gpus-per-node 8 \ ... 有关大型示例，请参阅“docs/en/examples/glm4.5-355B-A32B.md”。 ## 定制指南 ### 自定义奖励模型实现异步函数： async def my_reward_func(args, Sample: Sample, **kwargs) -> float: # 访问示例字段提示=示例.提示响应 = 样本.响应标签 = 样本.标签 # 计算奖励奖励=compute_score（响应，标签）返回浮动（奖励）与：`--custom-rm-path module.path:my_reward_func`一起使用 ### 自定义生成函数实现异步函数： async def my_generate(args,sample:Sample,sampling_params) -> Sample: # 加载分词器从 slime.utils.processing_utils 导入 load_tokenizer tokenizer = load_tokenizer(args.hf_checkpoint, trust_remote_code=True) # 生成响应（调用 SGLang API 或自定义逻辑）从 slime.utils.http_utils 导入帖子输出=等待帖子（ f"http://{args.sglang_router_ip}:{args.sglang_router_port}/generate", {“文本”：sample.prompt，“采样参数”：采样参数} ） # 设置示例字段 Prompt_tokens = tokenizer(sample.prompt, add_special_tokens=False)["input_ids"] response_tokens = tokenizer(output["text"], add_special_tokens=False)["input_ids"] 样本.令牌=提示令牌+响应令牌样本.response_length = len(response_tokens) 样本.响应=输出[“文本”] Sample.truncated = 输出["meta_info"]["finish_reason"]["type"] == "length" 返回样品与：`--custom-generate-function-path module.path:my_generate`一起使用 ### 自定义动态过滤器实现过滤功能： def my_filter(args, 样本: 列表[样本], **kwargs) -> bool: # 返回 True 保留样本，False 丢弃返回全部（样本中的样本的样本奖励> 0.5）与：`--dynamic-sampling-filter-path module.path:my_filter`一起使用 ## 示例参考有关详细示例和模式，请参阅 [references/examples_reference.md]()。快速查找器： * **基础数学训练** : `scripts/run-qwen3-4B.sh` * **多轮工具使用** : `examples/search-r1/` * **视觉语言强化学习** : `examples/geo3k_vlm/` * **大规模 MOE** : `docs/en/examples/glm4.5-355B-A32B.md` * **自定义生成** : `examples/search-r1/search_r1_logic.py` * **FSDP 后端** : `examples/geo3k_vlm/` ## 源代码参考有关源代码探索，请参阅 [references/source_code_reference.md]()。关键文件： * **参数** : `slime/utils/arguments.py` * **推出** : `slime/rollout/sglang_rollout.py` * **示例类型** : `slime/utils/types.py` * **奖励模型** : `slime/rollout/rm_hub/` * **转换工具** : `tools/convert_hf_to_torch_dist.py` ## 故障排除 ### 常见问题 **同地培训期间出现 OOM** ： * 减少 `--sglang-mem-fraction-static` （尝试 0.7 或 0.6） * 减少 `--max-tokens-per-gpu` * 启用梯度检查点：`--recompute-grainarity full` **批量大小不匹配**： * 确保：`rollout-batch-size × n-samples-per-prompt = global-batch-size × num-steps-per-rollout` **重量换算错误**： * 检查模型配置是否完全匹配（例如，`--rotary-base`） * 使用 FSDP 后端跳过转换：`--train-backend fsdp` **多节点通信问题**： * 设置环境变量：`GLOO_SOCKET_IFNAME`、`NCCL_SOCKET_IFNAME` * 参见 `docs/en/get_started/quick_start.md` 多节点部分 **SGLang 并发问题**： * 限制并发数：`--sglang-server-concurrency 160` * 增加 CUDA 图： `--sglang-cuda-graph-bs 1 2 4 8 $(seq 16 8 256)` 有关更多故障排除，请参阅“docs/en/get_started/qa.md”。 ## 其他资源 ### 参考文件 * **文档导航** : [references/doc_navigation.md]() \- 快速查找文档 * **示例参考** : [references/examples_reference.md]() \- 示例脚本和模式 * **源代码参考** : [references/source_code_reference.md]() \- 代码结构和关键函数 ### 外部链接 * **GitHub 存储库** : * **Docker 镜像** : `slimerl/slime:latest` * **威震天-LM**： * **SGLang** ：

史莱姆使用者

包含技能