AI基准测试

奈导航为您奉上2026年最新的AI基准测试在线工具与精品资源指南。本标签页已聚合2款AI基准测试相关的高品质应用，涵盖等业内极具代表性的站点。全部链接均经过实测，一键点击直达，帮您快速找到最趁手的AI神器。

收录了 2 个网站

排序

发布更新浏览

FlagEval FlagEval 是由北京智源人工智能研究院推出的大模型评测平台，面向人工智能模型提供多维度能力评估与榜单展示。网站涵盖模型趋势、评测任务、数据集与结果对比等内容，支持用户了解不同模型在语言理解、生成、推理等方面的表现，适合研究人员、开发者和行业用户参考模型能力与技术进展。

AI开发平台 # AI基准测试 # 大模型评测

MMBench MMBench 是由 OpenCompass 提供的多模态大模型评测基准与榜单平台，面向视觉语言模型等多模态 AI 系统，提供标准化测试集、评测结果和模型性能对比信息。网站可用于了解主流多模态模型在图像理解、推理、感知等任务中的表现，适合研究人员、开发者和 AI 从业者参考模型能力与评测进展。

AI开发平台 # AI基准测试 # OpenCompass