分类

AI模型评测

横评大模型性能!收录各类评测平台。基准测试、RAG评估、代理能力对比,开发者/研究者的模型选型与优化利器!

Scale AI
Scale AI
scale.com
直达

Scale AI 是一家专注于为...

StableLM
StableLM
github.com
直达

StableLM 是由 Stab...

StableVicuna
StableVicu...
chat.lmsys.org
直达

StableVicuna 是一个...

PaLM 2
PaLM 2
ai.google
直达

PaLM 2 是由谷歌(Goog...

CMMLU
CMMLU
github.com
直达

CMMLU(Chinese Ma...

Open LLM Leaderboard
Open LLM L...
huggingface.co
直达

Open LLM Leaderb...

SuperCLUE
SuperCLUE
www.cluebenchmarks...
直达

SuperCLUE 是一个专注于...

C-Eval
C-Eval
cevalbenchmark.com
直达

C-Eval 是一个专为中文大语...

MMLU
MMLU
paperswithcode.com
直达

MMLU(Massive Mul...

LMArena
LMArena
lmarena.ai
直达

LMArena 是一个专注于人工...

FlagEval
FlagEval
flageval.baai.ac.c...
直达

FlagEval 是一个专注于大...

OpenCompass
OpenCompas...
opencompass.org.cn
直达

OpenCompass 是一个专...