使用方法 - SuperCLUE官网中文站

注册与登录

要使用 SuperCLUE 进行模型评测，首先需要在其官网完成注册。进入首页后，点击右上角的“注册”按钮，填写邮箱地址并设置密码，系统会发送一封验证邮件。验证通过后即可登录。登录后进入个人控制台，所有评测相关的功能入口都集中在此处。建议首次登录后完善个人资料，并绑定用于接收通知的手机号或备用邮箱，以便后续评测结果推送。

评测数据获取

SuperCLUE 提供公开评测数据集，涵盖多轮对话、知识问答、逻辑推理、中文理解等多个维度。在控制台的“数据集”页面，可以按类别浏览并下载最新版本的评测数据包。数据包格式为 JSON Lines，每行包含一个独立的评测样本，字段包括问题、参考答案、评测维度标签等。下载前请仔细阅读数据使用协议，部分数据集可能要求签署非商业用途声明。下载后解压即可获得评测所需的输入文件。

模型评测流程

SuperCLUE 的评测分为两种方式：在线 API 评测和离线提交评测。对于在线 API 评测，需要在控制台中创建评测任务，输入模型的 API 端点地址（需支持标准的 Chat Completion 接口），并提供鉴权密钥。系统会自动调用你的模型接口，将评测样本逐条发送并收集回复。离线提交评测则适用于无法对外开放 API 的模型：先在本地运行评测数据集，将模型输出结果整理成指定的 JSON 格式（包含原始问题 ID 和模型回答），然后上传至控制台的“提交结果”页面。两种方式均支持批量处理，建议每次评测样本量不少于 500 条以保证统计稳定性。

评分与结果查看

提交评测后，SuperCLUE 后台会自动计算各项指标。评分维度包括准确率、流畅度、安全性、指令遵循能力等。在控制台的“评测历史”页面，可以实时查看任务状态（排队中、执行中、已完成）。任务完成后，点击详情可查看分维度得分雷达图、与基准模型的对比表格，以及具体样例的评分明细。所有结果支持导出为 CSV 或 PDF 报告，方便用于论文或技术文档。评价标准完全基于 SuperCLUE 公开的评分规则，每次评测都会记录所使用的数据集版本和模型参数，确保可复现。

排行榜与社区

评测完成后，模型会自动进入 SuperCLUE 排行榜。默认排名依据综合得分，用户也可以按细分维度（如中文理解、逻辑推理）筛选。排行榜每日更新一次，同一模型可多次提交，系统会取最高分作为最终排名依据。此外，社区板块提供了评测经验交流区和官方 FAQ，遇到数据集格式问题或评分疑惑时，可以搜索历史问题或直接发帖。注意排行榜只展示公开评测的模型，私有评测结果仅对用户本人可见。

常见使用技巧

为了获得准确的评测结果，建议在提交前进行小规模预跑：选取 50 条样本验证模型输出格式是否正确。对于在线 API 评测，务必设置合理的超时时间（默认 30 秒）和重试机制，避免因网络波动导致丢数据。如果使用离线提交，确保模型输出的回答不包含额外标记（如思考过程、特殊分隔符），仅保留最终答案。另外，SuperCLUE 支持自定义评测模板，高级用户可以在控制台中创建私有评测集，上传自己的问题和参考答案，实现特定场景的定制化评测。首次使用时可参考官方提供的示例脚本（Python 版），该脚本位于数据集下载包的 examples 目录下，涵盖数据读取、并发请求、结果格式化等基础功能。