Introducing Max: 智能模型路由引擎

发布者: Arena Team · 2026年2月4日 · 全量汉化重制版

今天,我们正式发布 Max。这是 Arena 推出的智能模型路由引擎,由社区超过 500 万次真实投票数据驱动。Max 就像一位智能指挥官——它能根据每一条提示词(Prompt)的特性,将其路由至最擅长该任务的模型。

在 AI 快速发展的今天,没有一个模型是万能的。有的擅长代码,有的精通数学;有的响应极快,有的则思考深沉。Max 的核心价值在于:统一入口,按需分配,集百家之长。

我们在竞技场中部署了代号为 theta-hat 的基础版 Max,它以 1500 分的成绩登顶总榜,并在编程、数学、专家等所有子榜单中位列第一。

表 1: Max Arena 综合评分
Max (基础版) 与其他顶尖模型的分数对比
分类Max (基础版)Gemini-3-ProGrok-4.1-ThinkClaude-Opus-4.5
综合总分 (Overall)1500148814761468
编程 (Coding)1567151915081539
高难度提示词 (Hard)1527150314871501
数学 (Math)1489148514541468
创意写作 (Writing)1493149114371456
图 1: 总体路由分布
Max (基础版) 将用户的提示词分发给哪些模型?
图 2: 各领域路由策略偏好
在不同任务类型下,Max 倾向于选择哪种模型?

延迟感知路由 (Latency-Aware)

除了追求高分,我们还推出了代号为 arcstride 的延迟感知版 Max。它在保持 1495 高分(几乎无损)的同时,将首字延迟 (TTFT) 降低了惊人的 16 秒。

表 2: 延迟与性能对比
模型Arena 评分首字延迟 (TTFT) / 秒
Max (延迟感知版)14953.44s
Grok-4.1-Thinking14767.19s
Gemini-3-Pro148819.72s
图 3: 延迟版 Max 的供应商分布
为了速度,Max 更倾向于选择哪些供应商?
图 4: 评分 vs 首字延迟 (TTFT)
红色曲线为帕累托前沿 (Pareto Frontier),代表当前技术的效率边界
图 5: 评分 vs 端到端生成时间

附录: 静态基准测试

虽然 Max 是针对人类偏好(Arena)优化的,但我们在传统静态跑分上也进行了测试。结果显示,Max 即使不刻意刷榜,依然具备统治力。

表 3: 静态基准测试成绩
基准 (Benchmark)Max (基础版)Gemini-3-ProClaude-Opus-4.5
GPQA Diamond (专家常识)91.0%90.5%84.9%
SimpleQA Verified (简答)70.4%72.0%40.8%
HLE (人类长文本)38.1%38.7%26.6%
图 6: HLE 准确率 vs 延迟
图 7: GPQA Diamond 准确率 vs 延迟
图 8: SimpleQA 准确率 vs 延迟