Skip to content

大模型评估框架

OpenCompass模型评估 https://github.com/open-compass/opencompass/blob/main/README_zh-CN.md

OpenCompass

OpenCompass是一个开源项目,旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。

生成式大模型的评估指标

  1. 核心评估指标
    OpenCompass支持以下主要评估指标,覆盖生成式大模型的多样化需求:

准确率(Accuracy): 用于选择题或分类任务,通过比对生成结果与标准答案计算正确率。在OpenCompass中通过metruc=accuracy配置。

困惑度(Perplexity): 衡量模型对候选答案的预测能力,适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)

生成质量(GEN): 通过文本生成结果提取答案,需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则。

ROUGE/LCS: 用于文本生成任务的相似度评估,需安装rouge==1.0.1依赖,并在数据配置中设置metric=rouge。

条件对数概率(CLP): 结合上下文计算答案的条件概率,适用于复杂推理任务,需在模型配置中启用use_logprob=True。

支持的开源评估数据集及使用差异

主流开源数据集
OpenCompass内置超过70个数据集,覆盖五大能力维度:

知识类 - C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。

推理类: GSM8K(数学推理)、BBH(复杂推理链)。

语言类: CLUE(中文理解)、SuperGLUE(英文理解)。