AI模型评测
横评大模型性能!收录各类评测平台。基准测试、RAG评估、代理能力对比,开发者/研究者的模型选型与优化利器!
该分类下的热门网址
StableLM
StableVicuna
PaLM 2
CMMLU
Open LLM Leaderboard
SuperCLUE
C-Eval
MMLU
LMArena
FlagEval
OpenCompass
HELM