覆盖语言理解、知识问答、逻辑推理、数学计算、代码生成等核心领域,全面衡量中文大模型的真实水平。
从题目生成到结果评分全流程自动化,消除人工偏差,确保评测过程高效、标准、可复现。
实时公开各模型表现,支持开发者自主提交评测结果,推动中文大模型透明竞争与迭代进步。
SuperCLUE 项目正式启动,由国内领先的 AI 研究团队发起,旨在构建一个覆盖中文场景的通用语言理解评估基准。初期版本聚焦于基础分类、阅读理解与推理任务,首批公开数据集涵盖 10 余个子任务,为中文大模型提供标准化评测框架。
SuperCLUE 发布 1.0 版本,引入多轮对话、知识问答与开放式生成等复杂场景评测。同年推出排行榜系统,定期更新国内外主流模型的测试结果,包括百度文心、阿里通义千问、讯飞星火、智谱 ChatGLM 等,成为中文大模型领域最具影响力的基准之一。
SuperCLUE 升级至 2.0,新增逻辑推理、数学计算、代码生成与中文文化理解等维度,数据集扩展至 30 余个任务。同时推出“SuperCLUE-Agent”专项,评估模型在工具调用、多步规划与记忆交互方面的能力。同年开放在线评测平台,支持开发者自助提交模型结果。
SuperCLUE 发布 3.0 版本,引入多模态理解评测,整合图文、语音与视频指令任务。推出“SuperCLUE-Safety”安全评测模块,覆盖价值观对齐、有害内容识别与隐私保护等关键维度。社区贡献者超 2000 人,累计评测模型超 150 个,数据在 GitHub 上获得逾万星标。