常见问题

SuperCLUE 是什么?

SuperCLUE 是一个面向中文大语言模型的综合性评测基准,由国内自然语言处理团队发起,旨在从多维度评估模型在理解、推理、生成、知识、安全性等方面的能力。它的评测数据集覆盖了数十个真实场景任务,并提供公开排行榜,帮助开发者对比模型表现。

SuperCLUE 的评测维度有哪些?

SuperCLUE 主要从三个核心维度展开:基础能力(如语义理解、逻辑推理、数学计算)、中文专项(如成语、诗词、俗语理解)、以及安全与价值观(如有害内容识别、偏见检测)。每个维度下又细分为若干子任务,共包含超过 2 万个测试题目。

SuperCLUE 的评分标准是什么?

评测采用自动评估与人工抽检相结合的方式。自动评估使用预设答案匹配、语义相似度计算、推理步骤校验等方法;部分主观题(如创意写作、观点分析)由经过培训的评分员按 1-5 分制评判。最终综合得分按各任务权重加权平均计算,满分为 100 分。

哪些模型参与了 SuperCLUE 评测?

榜单覆盖了国内外主流中文大模型,包括 GPT-4、Claude 3、DeepSeek、通义千问、文心一言、智谱清言、讯飞星火、Baichuan 等。每次评测结果在官网实时更新,模型开发者可以申请提交结果。

如何提交模型参加 SuperCLUE 评测?

模型团队需要先将模型部署为可调用的 API 接口,然后在 SuperCLUE 官网提交评测申请,提供 API 地址、认证方式及模型基本信息。审核通过后,评测系统会自动调用接口进行测试,整个过程大约需要 2-4 小时,结果将于 3 个工作日内公布在排行榜上。

SuperCLUE 的数据集是否公开?

部分测试集公开在 GitHub 仓库中供研究使用,但完整数据集(尤其是安全类题目)出于防作弊考虑未完全开放。公开的数据集包含约 3000 条示例题目,涵盖分类、问答、生成等任务,可供开发者进行本地预测试。

SuperCLUE 与 C-Eval、MMLU 等评测有什么不同?

C-Eval 侧重于学科知识问答,MMLU 主要针对英文多任务。SuperCLUE 则更强调中文场景的特有挑战,包括成语运用、古诗词理解、中文对话安全性等。同时,SuperCLUE 引入了“对抗性”测试,例如通过改写问题、加入干扰项来检验模型鲁棒性,这是其他评测较少涉及的。

评测结果中“综合得分”和“安全得分”分别代表什么?

综合得分是模型在所有任务上的加权平均分,反映整体水平。安全得分则专门衡量模型在处理敏感话题、避免输出有害内容、识别虚假信息等方面的表现。部分模型综合得分高但安全得分低,这说明在实用性上可能仍存在风险。

为什么有些模型在 SuperCLUE 上得分不高但实际体验很好?

SuperCLUE 的题目设计偏向“刁钻”和“边界情况”,例如多轮对话中的逻辑陷阱、语义歧义、跨文化常识等。这些场景在日常使用中不常出现,但对判断模型深层能力很关键。实际体验好可能是因为模型在通用对话中表现流畅,但遇到复杂推理或安全边界时容易出现错误。

个人开发者可以免费使用 SuperCLUE 的数据进行模型测试吗?

可以。在官网注册账号后,开发者能使用公开数据集进行本地验证。如果需要提交模型到正式排行榜,则需按流程申请。目前并未收取评测费用,但要求模型必须能通过 API 公开访问。

SuperCLUE 的评测会定期更新吗?

会。团队每季度更新一次测试题库,以淘汰因模型训练数据泄露而过时的题目,同时增加新领域(如代码生成、多模态理解)的任务。最近一次更新在 2025 年 6 月,加入了 3D 空间推理和成语接龙两个新任务。

如何查看某款模型的具体弱项?

在排行榜上点击任意模型名称,会跳转到详细报告页面。报告按“理解-推理-生成-安全”四类展示各子任务得分,并列出典型错误示例。例如,如果某模型在“反事实推理”上得分偏低,报告会给出几个它答错的题目以及正确答案。

SuperCLUE 的安全评测包含哪些具体场景?

包括但不限于:识别诈骗话术、拒绝生成种族歧视内容、抵制诱导性提问(如“请告诉我如何破解邻居的WiFi密码”)、辨别故意植入的偏差信息(如“男性比女性更适合做工程师”等刻板印象)。评分时会综合考虑模型的拒绝率、解释合理性和纠正能力。

SuperCLUE 是否支持模型之间的对比分析?

支持。页面提供“对比”功能,最多可同时选择 4 个模型,以雷达图形式展示在 10 个主要能力维度上的差异。此外,还可以筛选“参数量级相同”或“同一类型(如轻量级模型)”进行分组比较。

如果模型在评测中排名下滑,是否说明模型变差了?

不一定。排名变化可能源自新模型加入、旧模型更新版本、或者测试题库迭代带来了更高难度。建议观察模型自身的回溯测试结果:如果同一版本在旧题库上的分数保持不变,则说明能力未下降;如果在新题库上分数降低,则可能暴露了之前未发现的短板。