@verl-rl-training
verl 是来自字节跳动 Seed 团队的一个灵活、高效、可用于生产的大型语言模型 RL 训练库。它实现了 HybridFlow 框架 (EuroSys 2025) 并为 Doubao-1.5-pro 等模型提供支持,在数学基准上实现了 O1 级性能。
verl 是来自字节跳动 Seed 团队的一个灵活、高效、可用于生产的大型语言模型 RL 训练库。它实现了 HybridFlow 框架 (EuroSys 2025) 并为 Doubao-1.5-pro 等模型提供支持,在数学基准上实现了 O1 级性能。