📚

文档 & 知识

评估代码模型

@evaluating-code-models

BigCode 评估工具可跨 15 多个基准评估代码生成模型，包括 HumanEval、MBPP 和 MultiPL-E（18 种语言）。

包含技能

1 个

📚

评估代码模型

@zechenzhangagi/ai-research-skills/evaluating-code-models

BigCode 评估工具可跨 15 多个基准评估代码生成模型，包括 HumanEval、MBPP 和 MultiPL-E（18 种语言）。

安装