CMMLU

CMMLU（Chinese Massive Multitask Language Understanding）是一个专为评估中文大规模多任务语言理解能力而设计的基准测试，由 haonan-li 团队开发并开源于 GitHub。该项目旨在填补中文自然语言处理领域在多任务评估方面的空白，提供一个全面、系

AI搜索与研究工具 AI模型评测 AI学习网站

简介

CMMLU（Chinese Massive Multitask Language Understanding）是一个专为评估中文大规模多任务语言理解能力而设计的基准测试，由 haonan-li 团队开发并开源于 GitHub。该项目旨在填补中文自然语言处理领域在多任务评估方面的空白，提供一个全面、系统的测试框架，用于衡量语言模型在不同任务和知识领域的理解与推理能力。

功能

涵盖57个任务类别，涉及人文、社会科学、理工科、医学等多个领域
支持多项选择题格式，便于统一评估标准
可用于评估各类中文语言模型（如ChatGLM、Baichuan、ERNIE等）的综合能力
开源数据集和评测脚本，便于研究人员和开发者自由使用与扩展
支持与英文MMLU对比，便于跨语言模型性能分析

适用人群

人工智能与自然语言处理领域的研究人员
中文大语言模型的开发者与工程师
高校及科研机构进行语言模型评估的教师与学生
对比分析中英文语言模型性能的跨语言研究者

常见问题

CMMLU 是否仍在更新？
是，项目活跃于 GitHub，社区持续贡献新任务与优化评估方法。
如何使用 CMMLU 评估自己的模型？
用户可通过克隆 GitHub 仓库，使用提供的脚本加载模型并运行评测。
CMMLU 是否只适用于大模型？
虽然设计初衷是评估大语言模型，但中小型模型也可用于测试其任务泛化能力。
是否支持英文任务？
CMMLU 专注于中文任务，但支持与英文 MMLU 结果对比。

https://github.com/haonan-li/CMMLU/

CMMLU

简介

功能

适用人群

常见问题

相关网站