MMMU

Multimodal college-level reasoning.

Leaderboard

#	Model	Provider	%	Evaluated
1	Claude Opus 4.7	Anthropic	76.1%	—
2	Gemini 2.0 Flash	Google DeepMind	71.7%	—
3	Claude 3.5 Sonnet	Anthropic	70.4%	—
4	GPT-4o	OpenAI	69.1%	—