OpenSOTA — Agentic & Coding LLM Leaderboards

Agentic

How well models plan, use tools, and complete multi-step tasks.

Last updated · May 31, 2026, 13:27 UTC

Rank	Model	Provider	Composite	GAIA	TAU-bench	AgentBench-FC	Artificial Analysis
1	Qwen3-Maxlimited Alibaba	Alibaba	82.2	—	82.2	—	—
2	Nemotron-Orchestrator-8Blimited NVIDIA	NVIDIA	76.3	—	76.3	—	—
3	Gemini 3 Prolimited Google	Google	74.3	—	85.4	—	52.0
4	DeepSeek V3.2limited DeepSeek	DeepSeek	71.2	—	80.4	—	52.9
5	Claude Sonnet 4.5 Anthropic	Anthropic	71.0	74.5	84.7	58.9	51.7
6	Claude Opus 4.1 Anthropic	Anthropic	68.8	68.5	69.2	—	—
7	Qwen3.5limited Alibaba	Alibaba	68.4	—	68.4	—	—
8	Claude Opus 4 Anthropic	Anthropic	67.5	64.8	70.5	—	—
9	DeepSeek V4 Prolimited DeepSeek	DeepSeek	67.2	—	—	—	67.2
10	GLM-5.1limited Z.ai	Z.ai	67.1	—	—	—	67.0
11	GPT-5.2limited OpenAI	OpenAI	66.6	—	69.8	—	60.2
12	Claude Opus 4.5limited Anthropic	Anthropic	66.1	—	69.3	—	59.6
13	GPT-5 OpenAI	OpenAI	64.6	62.8	80.0	52.2	54.6
14	GLM-5limited Z.ai	Z.ai	63.2	—	63.2	—	63.1
15	Gemini 3 Flashlimited Google	Google	61.7	—	67.8	—	49.7
16	Claude Sonnet 4 Anthropic	Anthropic	60.3	—	70.3	58.2	43.0
17	Kimi K2limited Moonshot AI	Moonshot AI	58.8	—	64.3	—	47.9
18	Claude 3.7 Sonnet Anthropic	Anthropic	58.2	64.2	61.8	—	37.0
19	Claude Haiku 4.5limited Anthropic	Anthropic	56.4	56.4	—	—	—
20	MiniMax M2.5limited MiniMax	MiniMax	55.6	—	—	—	55.6
21	GPT-4.1-minilimited OpenAI	OpenAI	53.0	—	53.0	—	—
22	GPT-5 Codexlimited OpenAI	OpenAI	52.7	—	—	—	52.7
23	GPT-5.1limited OpenAI	OpenAI	51.3	—	—	—	51.3
24	o4-mini OpenAI	OpenAI	50.8	58.2	56.9	39.7	36.1
25	GPT-4.1 OpenAI	OpenAI	47.6	50.3	54.7	—	27.3
26	o3 OpenAI	OpenAI	44.7	32.7	63.0	—	36.1
27	Grok 4limited xAI	xAI	41.5	—	—	—	41.5
28	Claude Opus 4.6limited Anthropic	Anthropic	38.8	—	24.5	—	67.6
29	GPT-5.5limited OpenAI	OpenAI	37.4	—	37.4	—	—
30	Doubao-Seed-Codelimited ByteDance	ByteDance	36.5	—	—	—	36.5
31	o3-minilimited OpenAI	OpenAI	32.3	—	—	40.9	20.9
32	GPT-5.4limited OpenAI	OpenAI	30.7	—	30.7	—	—
33	DeepSeek R1 DeepSeek	DeepSeek	30.1	30.3	—	49.3	3.8
34	DeepSeek V3 DeepSeek	DeepSeek	26.9	29.4	—	36.1	8.8
35	GPT-4olimited OpenAI	OpenAI	26.8	—	—	39.6	9.7
36	Claude Opus 4.7limited Anthropic	Anthropic	25.3	—	25.3	—	—
37	Grok 3limited xAI	xAI	24.6	—	—	—	24.6
38	Gemini 3.1 Pro Previewlimited Google	Google	22.5	—	22.5	—	—
39	Gemini 2.5 Prolimited Google	Google	19.4	—	12.8	—	32.7
40	Gemini 2.5 Flashlimited Google	Google	18.8	—	—	—	18.8