FlagEval FlagEval 是由北京智源人工智能研究院推出的大模型评测平台,面向人工智能模型提供多维度能力评估与榜单展示。网站涵盖模型趋势、评测任务、数据集与结果对比等内容,支持用户了解不同模型在语言理解、生成、推理等方面的表现,适合研究人员、开发者和行业用户参考模型能力与技术进展。 AI开发平台 # AI基准测试 # 大模型评测