📚
文档 & 知识

迈尔斯 RL 训练

@miles-rl-training

miles 是一个高性能、企业级 RL 框架,针对大规模模型训练后进行了优化。它作为 Slime 的生产分支而构建,解决了 MoE 训练稳定性、低精度训练和训练推理对齐方面的关键挑战。

包含技能

1 个
📚
迈尔斯 RL 训练
@zechenzhangagi/ai-research-skills/miles-rl-training

miles 是一个高性能、企业级 RL 框架,针对大规模模型训练后进行了优化。它作为 Slime 的生产分支而构建,解决了 MoE 训练稳定性、低精度训练和训练推理对齐方面的关键挑战。

🚀 如何安装技能包 请下载安装 AiOffice 客户端,
如果已下载AiOffice,
请在 AiOffice 的技能广场页面进行一键安装。