SuperCLUE官网中文站

特点

多维度能力评估

覆盖语言理解、知识问答、逻辑推理、数学计算、代码生成等核心领域，全面衡量中文大模型的真实水平。

自动化评测流水线

从题目生成到结果评分全流程自动化，消除人工偏差，确保评测过程高效、标准、可复现。

开放排行榜与社区

实时公开各模型表现，支持开发者自主提交评测结果，推动中文大模型透明竞争与迭代进步。

基本信息

出品方：CLUE 团队（中文语言理解评测基准团队），由清华大学、北京智源人工智能研究院等单位支持
英文名称：SuperCLUE
首次发布：2023 年 7 月（SuperCLUE 1.0）
产品类型：中文大模型综合性评测基准，覆盖语言理解、推理、生成、知识、安全等多维度
核心能力：多轮对话评测、客观题与主观题结合、细粒度能力诊断、模型安全与偏见评估、多模态扩展（SuperCLUE 2.0）
最新模型：SuperCLUE 2.0（2024 年 4 月），引入强化学习与多模态评测，支持开放式生成任务
评测规格：包含 1000+ 道题目，覆盖十余个能力维度，采用单轮/多轮对话形式，支持模型排名与能力雷达图

所获荣誉

世界中文语言理解权威评测基准：SuperCLUE 被广泛认可为全球最具影响力的中文大模型综合性评测基准之一，其评测结果被多家头部科技企业及研究机构作为模型能力对外公布的核心依据。
中文大模型能力晴雨表：作为首个系统性地覆盖中文多轮对话、知识推理、代码生成、逻辑判断等维度的开源评测体系，SuperCLUE 长期被业界视为中文大模型能力发展的风向标。
CLUE 家族旗舰产品：承袭 CLUE（中文语言理解测评基准）在 NLP 领域近十年积累的权威性，SuperCLUE 在 2023 年发布后迅速成为学术与工业界联合验证中文通用人工智能进展的标准平台。
超 10 万次社区引用量：SuperCLUE 公开的评测榜单及数据集在 GitHub 等开源社区累计获得超过 10 万次引用，超过 300 家全球企业及研究机构主动提交模型参与评测。
国家级项目支撑工具：多项国家级人工智能重大课题（包括科技部重点研发计划相关项目）直接采用 SuperCLUE 的评测框架作为模型阶段验收与横向对比的参考工具。
媒体及行业报告首选数据源：权威媒体（如人民日报、新华网、36氪等）及国际咨询机构（如艾瑞咨询、IDC）发布的中文大模型行业报告中，SuperCLUE 的排名结果被反复引用作为关键论据。
覆盖千亿参数模型评测：SuperCLUE 率先在公开评测中支持参数量级从 7B 到 540B 的模型接入，并针对各量级模型分别设立专项排行榜，为不同规模团队提供可对照的参考系。

发展历史

2022

SuperCLUE 项目正式启动，由国内领先的 AI 研究团队发起，旨在构建一个覆盖中文场景的通用语言理解评估基准。初期版本聚焦于基础分类、阅读理解与推理任务，首批公开数据集涵盖 10 余个子任务，为中文大模型提供标准化评测框架。

2023

SuperCLUE 发布 1.0 版本，引入多轮对话、知识问答与开放式生成等复杂场景评测。同年推出排行榜系统，定期更新国内外主流模型的测试结果，包括百度文心、阿里通义千问、讯飞星火、智谱 ChatGLM 等，成为中文大模型领域最具影响力的基准之一。

2024

SuperCLUE 升级至 2.0，新增逻辑推理、数学计算、代码生成与中文文化理解等维度，数据集扩展至 30 余个任务。同时推出“SuperCLUE-Agent”专项，评估模型在工具调用、多步规划与记忆交互方面的能力。同年开放在线评测平台，支持开发者自助提交模型结果。

2025

SuperCLUE 发布 3.0 版本，引入多模态理解评测，整合图文、语音与视频指令任务。推出“SuperCLUE-Safety”安全评测模块，覆盖价值观对齐、有害内容识别与隐私保护等关键维度。社区贡献者超 2000 人，累计评测模型超 150 个，数据在 GitHub 上获得逾万星标。