今天,我们正式发布 Max。这是 Arena 推出的智能模型路由引擎,由社区超过 500 万次真实投票数据驱动。Max 就像一位智能指挥官——它能根据每一条提示词(Prompt)的特性,将其路由至最擅长该任务的模型。
在 AI 快速发展的今天,没有一个模型是万能的。有的擅长代码,有的精通数学;有的响应极快,有的则思考深沉。Max 的核心价值在于:统一入口,按需分配,集百家之长。
我们在竞技场中部署了代号为 theta-hat 的基础版 Max,它以 1500 分的成绩登顶总榜,并在编程、数学、专家等所有子榜单中位列第一。
| 分类 | Max (基础版) | Gemini-3-Pro | Grok-4.1-Think | Claude-Opus-4.5 |
|---|---|---|---|---|
| 综合总分 (Overall) | 1500 | 1488 | 1476 | 1468 |
| 编程 (Coding) | 1567 | 1519 | 1508 | 1539 |
| 高难度提示词 (Hard) | 1527 | 1503 | 1487 | 1501 |
| 数学 (Math) | 1489 | 1485 | 1454 | 1468 |
| 创意写作 (Writing) | 1493 | 1491 | 1437 | 1456 |
除了追求高分,我们还推出了代号为 arcstride 的延迟感知版 Max。它在保持 1495 高分(几乎无损)的同时,将首字延迟 (TTFT) 降低了惊人的 16 秒。
| 模型 | Arena 评分 | 首字延迟 (TTFT) / 秒 |
|---|---|---|
| Max (延迟感知版) | 1495 | 3.44s |
| Grok-4.1-Thinking | 1476 | 7.19s |
| Gemini-3-Pro | 1488 | 19.72s |
虽然 Max 是针对人类偏好(Arena)优化的,但我们在传统静态跑分上也进行了测试。结果显示,Max 即使不刻意刷榜,依然具备统治力。
| 基准 (Benchmark) | Max (基础版) | Gemini-3-Pro | Claude-Opus-4.5 |
|---|---|---|---|
| GPQA Diamond (专家常识) | 91.0% | 90.5% | 84.9% |
| SimpleQA Verified (简答) | 70.4% | 72.0% | 40.8% |
| HLE (人类长文本) | 38.1% | 38.7% | 26.6% |