Wikibench

Catalogue

323 Models 555 Benchmarks 28 Providers 4,655 Results

Latest models

Model	Provider	Released	Context	Weights
Kimi K2.7 Code	Moonshot AI	Jun 12, 2026	—	open
DiffusionGemma 26B-A4B	Google	Jun 10, 2026	—	open
Claude Fable 5	Anthropic	Jun 9, 2026	—	proprietary
U2	Unisound	Jun 5, 2026	—	proprietary
MAI-Code-1-Flash	Microsoft	Jun 2, 2026	—	proprietary
MAI-Thinking-1	Microsoft	Jun 2, 2026	—	proprietary

Featured leaderboards

AA-LCR

%

#	Model	Score
1	Mistral Small 4	71.2%
2	Kimi K2.5	70.0%
3	Qwen3.5-397B-A17B	68.7%
4	Qwen3.6 Plus	68.3%
5	Qwen3.5-122B-A10B	66.9%

AGIEval

%

#	Model	Score
1	Mistral Small 3 24B Base	65.8%
2	Ministral 3 (14B Base 2512)	64.8%
3	Ministral 3 (8B Base 2512)	59.1%
4	Hermes 3 70B	56.2%
5	Gemma 2 27B	55.1%

AI2D

%

#	Model	Score
1	Claude 3.5 Sonnet	94.7%
2	Qwen3.6 Plus	94.4%
3	GPT-4o	94.2%
4	Pixtral Large	93.8%
5	Qwen3.5-122B-A10B	93.3%

Aider-Polyglot

%

#	Model	Score
1	GPT-5	88.0%
2	Gemini 2.5 Pro Preview 06-05	82.2%
3	o3	81.3%
4	Gemini 2.5 Pro	76.5%
5	DeepSeek-V3.2-Exp	74.5%