使用方法

注册与登录

要使用 SuperCLUE 进行模型评测,首先需要在其官网完成注册。进入首页后,点击右上角的“注册”按钮,填写邮箱地址并设置密码,系统会发送一封验证邮件。验证通过后即可登录。登录后进入个人控制台,所有评测相关的功能入口都集中在此处。建议首次登录后完善个人资料,并绑定用于接收通知的手机号或备用邮箱,以便后续评测结果推送。

评测数据获取

SuperCLUE 提供公开评测数据集,涵盖多轮对话、知识问答、逻辑推理、中文理解等多个维度。在控制台的“数据集”页面,可以按类别浏览并下载最新版本的评测数据包。数据包格式为 JSON Lines,每行包含一个独立的评测样本,字段包括问题、参考答案、评测维度标签等。下载前请仔细阅读数据使用协议,部分数据集可能要求签署非商业用途声明。下载后解压即可获得评测所需的输入文件。

模型评测流程

SuperCLUE 的评测分为两种方式:在线 API 评测和离线提交评测。对于在线 API 评测,需要在控制台中创建评测任务,输入模型的 API 端点地址(需支持标准的 Chat Completion 接口),并提供鉴权密钥。系统会自动调用你的模型接口,将评测样本逐条发送并收集回复。离线提交评测则适用于无法对外开放 API 的模型:先在本地运行评测数据集,将模型输出结果整理成指定的 JSON 格式(包含原始问题 ID 和模型回答),然后上传至控制台的“提交结果”页面。两种方式均支持批量处理,建议每次评测样本量不少于 500 条以保证统计稳定性。

评分与结果查看

提交评测后,SuperCLUE 后台会自动计算各项指标。评分维度包括准确率、流畅度、安全性、指令遵循能力等。在控制台的“评测历史”页面,可以实时查看任务状态(排队中、执行中、已完成)。任务完成后,点击详情可查看分维度得分雷达图、与基准模型的对比表格,以及具体样例的评分明细。所有结果支持导出为 CSV 或 PDF 报告,方便用于论文或技术文档。评价标准完全基于 SuperCLUE 公开的评分规则,每次评测都会记录所使用的数据集版本和模型参数,确保可复现。

排行榜与社区

评测完成后,模型会自动进入 SuperCLUE 排行榜。默认排名依据综合得分,用户也可以按细分维度(如中文理解、逻辑推理)筛选。排行榜每日更新一次,同一模型可多次提交,系统会取最高分作为最终排名依据。此外,社区板块提供了评测经验交流区和官方 FAQ,遇到数据集格式问题或评分疑惑时,可以搜索历史问题或直接发帖。注意排行榜只展示公开评测的模型,私有评测结果仅对用户本人可见。

常见使用技巧

为了获得准确的评测结果,建议在提交前进行小规模预跑:选取 50 条样本验证模型输出格式是否正确。对于在线 API 评测,务必设置合理的超时时间(默认 30 秒)和重试机制,避免因网络波动导致丢数据。如果使用离线提交,确保模型输出的回答不包含额外标记(如思考过程、特殊分隔符),仅保留最终答案。另外,SuperCLUE 支持自定义评测模板,高级用户可以在控制台中创建私有评测集,上传自己的问题和参考答案,实现特定场景的定制化评测。首次使用时可参考官方提供的示例脚本(Python 版),该脚本位于数据集下载包的 examples 目录下,涵盖数据读取、并发请求、结果格式化等基础功能。