@miles-rl-training
miles 是一个高性能、企业级 RL 框架,针对大规模模型训练后进行了优化。它作为 Slime 的生产分支而构建,解决了 MoE 训练稳定性、低精度训练和训练推理对齐方面的关键挑战。