分类

AI模型评测

横评大模型性能!收录各类评测平台。基准测试、RAG评估、代理能力对比,开发者/研究者的模型选型与优化利器!

HELM
HELM
crfm.stanford.edu
直达

HELM 是一个专为 Kuber...

MMBench
MMBench
mmbench.opencompas...
直达

MMBench 是一个专为评估多...

LLMEval3
LLMEval3
llmeval.com
直达

LLMEval3 是一个专为大语...

H2O EvalGPT
H2O EvalGP...
evalgpt.ai
直达

H2O EvalGPT 是由 H...

紫东太初
紫东太初
taichu-web.ia.ac.c...
直达

紫东太初是由中国科学院自动化研究...

百度GBI
百度GBI
gbi.cloud.baidu.co...
直达

百度GBI(Global Bus...

AGI-Eval
AGI-Eval
agi-eval.cn
直达

AGI-Eval 是一个专为评估...

书生大模型
书生大模型
intern-ai.org.cn
直达

书生大模型是由上海人工智能实验室...

Gemma
Gemma
ai.google.dev
直达

Gemma 是由 Google ...

Gatekeep
Gatekeep
gatekeep.ai
直达

Gatekeep 是一个专注于内...

Llama 3
Llama 3
llama.meta.com
直达

Llama 3 是由 Meta(...

Hedra
Hedra
www.hedra.com
直达

Hedra 是一个专注于数据流处...