分类
横评大模型性能!收录各类评测平台。基准测试、RAG评估、代理能力对比,开发者/研究者的模型选型与优化利器!
Scale AI 是一家专注于为...
StableLM 是由 Stab...
StableVicuna 是一个...
PaLM 2 是由谷歌(Goog...
CMMLU(Chinese Ma...
Open LLM Leaderb...
SuperCLUE 是一个专注于...
C-Eval 是一个专为中文大语...
MMLU(Massive Mul...
LMArena 是一个专注于人工...
FlagEval 是一个专注于大...
OpenCompass 是一个专...