分类
横评大模型性能!收录各类评测平台。基准测试、RAG评估、代理能力对比,开发者/研究者的模型选型与优化利器!
HELM 是一个专为 Kuber...
MMBench 是一个专为评估多...
LLMEval3 是一个专为大语...
H2O EvalGPT 是由 H...
紫东太初是由中国科学院自动化研究...
百度GBI(Global Bus...
AGI-Eval 是一个专为评估...
书生大模型是由上海人工智能实验室...
Gemma 是由 Google ...
Gatekeep 是一个专注于内...
Llama 3 是由 Meta(...
Hedra 是一个专注于数据流处...