分类

AI模型评测

横评大模型性能！收录各类评测平台。基准测试、RAG评估、代理能力对比，开发者/研究者的模型选型与优化利器！

Humanloop

humanloop.com

Humanloop 是一个面向企...

Scale AI

scale.com

Scale AI 是一家专注于为...

StableLM

github.com

StableLM 是由 Stab...

StableVicu...

chat.lmsys.org

StableVicuna 是一个...

PaLM 2

ai.google

PaLM 2 是由谷歌（Goog...

CMMLU

github.com

CMMLU（Chinese Ma...

Open LLM L...

huggingface.co

Open LLM Leaderb...

SuperCLUE

www.cluebenchmarks...

SuperCLUE 是一个专注于...

C-Eval

cevalbenchmark.com

C-Eval 是一个专为中文大语...

MMLU

paperswithcode.com

MMLU（Massive Mul...

LMArena

lmarena.ai

LMArena 是一个专注于人工...

FlagEval

flageval.baai.ac.c...

FlagEval 是一个专注于大...

上一页 1 2 3 下一页