IT之家 5 月 20 日消息,阿里千問(wèn)大模型今日正式發(fā)布 Qwen3.7-Max —— 面向智能體時(shí)代的新一代旗艦?zāi)P?,即將通過(guò) API 提供服務(wù)。Qwen3.7-Max 是阿里千問(wèn)迄今最全面、最強(qiáng)大的智能體模型。
千問(wèn)大模型官方介紹稱,Qwen3.7-Max 致力于成為全能的智能體基座 —— 無(wú)論是編寫(xiě)和調(diào)試代碼、自動(dòng)化辦公流程,還是在跨越數(shù)百乃至數(shù)千步的長(zhǎng)周期(883436)任務(wù)中持續(xù)自主執(zhí)行,都能勝任。
Qwen3.7-Max 的核心優(yōu)勢(shì)在于智能體能力的廣度與深度:
編程方面,從前端原型開(kāi)發(fā)到復(fù)雜的多文件工程均能駕馭;
辦公與生產(chǎn)力方面,通過(guò) MCP 集成和多智能體協(xié)作實(shí)現(xiàn)工作流自動(dòng)化;
長(zhǎng)周期(883436)自主執(zhí)行方面,在一項(xiàng)長(zhǎng)達(dá) 35 小時(shí)、超過(guò) 1000 次工具調(diào)用的全自主內(nèi)核優(yōu)化實(shí)驗(yàn)中保持了連貫推理,驗(yàn)證了其持久穩(wěn)定的執(zhí)行能力;
此外,無(wú)論部署在 Claude Code、OpenClaw、Qwen Code 還是其他框架下,都能穩(wěn)定發(fā)揮出色的跨框架泛化能力。
Qwen3.7-Max 即將通過(guò)阿里云百煉提供服務(wù),用戶可以通過(guò)阿里云百煉 API 調(diào)用(即將上線)。
IT之家附 Qwen3.7-Max 模型測(cè)試表現(xiàn)如下:
在編程智能體方面,Qwen3.7-Max 在 SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和 QwenSVG(1608)上均取得領(lǐng)先表現(xiàn)。在 Terminal Bench 2.0-Terminus(69.7)上超越 DS-V4-Pro Max(67.9)。在 SWE-Verified(80.4)上與 Opus-4.6 Max(80.8)和 DS-V4-Pro Max(80.6)表現(xiàn)相當(dāng)。
在通用智能體方面,提升更為顯著。Qwen3.7-Max 在 MCP-Mark(60.8 vs. GLM-5.1 的 57.5)、MCP-Atlas(76.4 vs. Opus-4.6 的 75.8)和 Skillbench(59.2 vs. K2.6 的 56.2)上表現(xiàn)突出,并在 Kernel Bench L3(1.98 倍中位數(shù)加速,96% 加速率)上展示了 GPU 內(nèi)核優(yōu)化能力。在 BFCL-V4(75.0)、Qwenclaw(64.3)和 ClawEval(65.2)上同樣表現(xiàn)出色,緊追 Opus-4.6 Max。在辦公自動(dòng)化基準(zhǔn) SpreadSheetBench-v1 上得分 87.0,處于頂尖水平。
在推理方面,Qwen3.7-Max 在 GPQA Diamond(92.4 vs. Opus-4.6 的 91.3)、HLE(41.4 vs. Opus-4.6 的 40.0)、HMMT 2026 Feb(97.1 vs. Opus-4.6 的 96.2)、IMOAnswerBench(90.0 vs. DS-V4-Pro 的 89.8)和 Apex(44.5 vs. DS-V4-Pro 的 38.3)上均取得領(lǐng)先成績(jī)。
在通用能力與多語(yǔ)言方面,Qwen3.7-Max 在 IFBench(79.1 vs. DS-V4-Pro 的 77.0)上表現(xiàn)突出,展示了指令遵循能力。在 WMT24++(85.8)和 MAXIFE(89.2)上同樣領(lǐng)先,表明其多語(yǔ)言理解和翻譯質(zhì)量處于一流水平。在 SuperGPQA(73.6)和 QwenWorldBench(57.3)上表現(xiàn)出色。
