Introducing Max | Arena 深度评测报告 (全量汉化版)

在 AI 快速发展的今天，没有一个模型是万能的。有的擅长代码，有的精通数学；有的响应极快，有的则思考深沉。Max 的核心价值在于：统一入口，按需分配，集百家之长。

我们在竞技场中部署了代号为 theta-hat 的基础版 Max，它以 1500 分的成绩登顶总榜，并在编程、数学、专家等所有子榜单中位列第一。

表 1: Max Arena 综合评分

Max (基础版) 与其他顶尖模型的分数对比

分类	Max (基础版)	Gemini-3-Pro	Grok-4.1-Think	Claude-Opus-4.5
综合总分 (Overall)	1500	1488	1476	1468
编程 (Coding)	1567	1519	1508	1539
高难度提示词 (Hard)	1527	1503	1487	1501
数学 (Math)	1489	1485	1454	1468
创意写作 (Writing)	1493	1491	1437	1456

图 1: 总体路由分布

Max (基础版) 将用户的提示词分发给哪些模型？

图 2: 各领域路由策略偏好

在不同任务类型下，Max 倾向于选择哪种模型？

延迟感知路由 (Latency-Aware)

除了追求高分，我们还推出了代号为 arcstride 的延迟感知版 Max。它在保持 1495 高分（几乎无损）的同时，将首字延迟 (TTFT) 降低了惊人的 16 秒。

表 2: 延迟与性能对比

图 3: 延迟版 Max 的供应商分布

为了速度，Max 更倾向于选择哪些供应商？

图 4: 评分 vs 首字延迟 (TTFT)

红色曲线为帕累托前沿 (Pareto Frontier)，代表当前技术的效率边界

图 5: 评分 vs 端到端生成时间

虽然 Max 是针对人类偏好（Arena）优化的，但我们在传统静态跑分上也进行了测试。结果显示，Max 即使不刻意刷榜，依然具备统治力。

表 3: 静态基准测试成绩

基准 (Benchmark)	Max (基础版)	Gemini-3-Pro	Claude-Opus-4.5
GPQA Diamond (专家常识)	91.0%	90.5%	84.9%
SimpleQA Verified (简答)	70.4%	72.0%	40.8%
HLE (人类长文本)	38.1%	38.7%	26.6%

图 6: HLE 准确率 vs 延迟

图 7: GPQA Diamond 准确率 vs 延迟

图 8: SimpleQA 准确率 vs 延迟