Claude 3.5 Sonnet

Mid-tier Anthropic model.

Benchmark results

Benchmark	Category	Score	Verified
Chatbot Arena	general	1271	yes
HumanEval	coding	92.0%	yes
MMLU	reasoning	88.7%	yes
MMMU	multimodal	70.4%	yes
SWE-bench Verified	coding	49.0%	yes