5月20日,千問正式發(fā)布Qwen3.7-Max——面向智能體時代的新一代旗艦模型,即將通過API提供服務。Qwen3.7-Max致力于成為全能的智能體基座——無論是編寫和調試代碼、自動化辦公流程,還是在跨越數(shù)百乃至數(shù)千步的長周期(883436)任務中持續(xù)自主執(zhí)行,都能勝任。
據(jù)悉,Qwen3.7-Max的核心優(yōu)勢在于智能體能力的廣度與深度:編程方面,從前端原型開發(fā)到復雜的多文件工程均能駕馭;辦公與生產(chǎn)力方面,通過MCP集成和多智能體協(xié)作實現(xiàn)工作流自動化;長周期(883436)自主執(zhí)行方面,在一項長達35小時、超過1000次工具調用的全自主內(nèi)核優(yōu)化實驗中保持了連貫推理,充分驗證了其持久穩(wěn)定的執(zhí)行能力;此外,無論部署在Claude Code、OpenClaw、Qwen Code還是其他框架下,都能穩(wěn)定發(fā)揮出色的跨框架泛化能力。
Qwen3.7-Max—即將通過阿里云百煉提供服務:
前沿編程智能體:從前端原型到復雜軟件工程
辦公生產(chǎn)力與工作流自動化,支持MCP集成和多智能體協(xié)作
持續(xù)穩(wěn)定的長周期自主執(zhí)行能力
跨多種智能體框架的泛化能力您可以通過阿里云百煉API調用(即將上線)。
模型表現(xiàn)
在編程智能體方面,Qwen3.7-Max在SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和QwenSVG(1608)上均取得領先表現(xiàn)。在Terminal Bench2.0-Terminus(69.7)上超越DS-V4-Pro Max(67.9)。在SWE-Verified(80.4)上與Opus-4.6Max(80.8)和DS-V4-Pro Max(80.6)表現(xiàn)相當。
在通用智能體方面,提升更為顯著。Qwen3.7-Max在MCP-Mark(60.8vs.GLM-5.1的57.5)、MCP-Atlas(76.4vs.Opus-4.6的75.8)和Skillbench(59.2vs.K2.6的56.2)上表現(xiàn)突出,并在Kernel Bench L3(1.98倍中位數(shù)加速,96%加速率)上展示了強大的GPU內(nèi)核優(yōu)化能力。在BFCL-V4(75.0)、Qwenclaw(64.3)和ClawEval(65.2)上同樣表現(xiàn)出色,緊追Opus-4.6Max。在辦公自動化基準SpreadSheetBench-v1上得分87.0,處于頂尖水平。
在推理方面,Qwen3.7-Max在GPQA Diamond(92.4vs.Opus-4.6的91.3)、HLE(41.4vs.Opus-4.6的40.0)、HMMT2026Feb(97.1vs.Opus-4.6的96.2)、IMOAnswerBench(90.0vs.DS-V4-Pro的89.8)和Apex(44.5vs.DS-V4-Pro的38.3)上均取得領先成績,在高難度推理基準上展現(xiàn)了強大實力。
在通用能力與多語言方面,Qwen3.7-Max在IFBench(79.1vs.DS-V4-Pro的77.0)上表現(xiàn)突出,展示了精準的指令遵循能力。在WMT24++(85.8)和MAXIFE(89.2)上同樣領先,表明其多語言理解和翻譯質量處于一流水平。在SuperGPQA(73.6)和QwenWorldBench(57.3)上同樣表現(xiàn)出色。
值得強調的是,上述評測分數(shù)來自多種不同的智能體框架。Qwen3.7-Max并非針對某一特定框架優(yōu)化,而是在Claude Code、OpenClaw、Qwen Code和各類自定義工具使用框架下都能穩(wěn)定發(fā)揮,是各類智能體系統(tǒng)的可靠底座。
生產(chǎn)力助手
面向真實生產(chǎn)力場景,Qwen3.7-Max將成為您的深度協(xié)作者。依托強大的智能體能力,全面重塑專業(yè)工作流:海量信息的全面研讀與整合、復雜數(shù)據(jù)的深度分析與建模、出版級文檔與可視化生成——精準承接高復雜度、高強度的企業(yè)級任務。
Qwen3.7-Max原生適配主流智能體框架。面向長鏈路交付任務,支持長達數(shù)小時的自主規(guī)劃與運行,通過上千次工具調用,數(shù)十輪版本迭代,持續(xù)提升交付物質量。以往需專業(yè)團隊耗時一至兩周的復雜項目,現(xiàn)由Qwen3.7-Max驅動的智能體即可在數(shù)小時內(nèi)完成端到端交付閉環(huán),推動生產(chǎn)力實現(xiàn)真實躍升。
智能體擴展
在 Qwen3.5中引入的環(huán)境擴展方法基礎上,Qwen3.7進一步大幅擴展了智能體訓練環(huán)境的質量與多樣性。正如語言模型從多樣化的預訓練文本中獲得泛化能力,我們發(fā)現(xiàn)智能體能力同樣可以從多樣化的訓練環(huán)境中實現(xiàn)泛化。
如下圖所示,這種環(huán)境擴展帶來了清晰且穩(wěn)定的性能提升軌跡,Qwen3.7-Max在綜合排名中位列前三,接近Claude-4.6-Opus-Max的水平。值得注意的是,我們評測中所有基準測試所涉及的環(huán)境均為訓練中從未出現(xiàn)過的全新領域外環(huán)境。
我們還觀察到擴展行為中一個顯著的可預測性:任意基準子集上的性能增益高度一致,可以可靠地預測其余基準或整體平均值的相對增益,表明環(huán)境擴展驅動的是真正的能力泛化,而非針對特定基準的提升。關于擴展動態(tài)和方法論的進一步分析將在即將發(fā)布的技術報告中詳細介紹。
跨框架泛化能力
我們的Rollout環(huán)境基礎設施將每個訓練實例解耦為三個正交組件——任務(Task)、運行框架(Harness)與驗證器(Verifier),這些組件可自由重組。我們兼容多種運行框架及其迭代版本,并將環(huán)境立足于真實場景而非合成替代品。這種解耦設計實現(xiàn)了組合式擴展:同一任務能以極低的邊際成本,與不同類型、不同版本的框架及驗證器相匹配。更關鍵的是,它賦能了跨框架與跨驗證器的強化學習(RL)訓練——使模型在多變的框架配置下處理同源任務,從而迫使其學習具備泛化能力的解題策略,而非依賴特定框架的捷徑。在QwenClawBench與CoWorkBench評測中,無論評估時使用何種運行框架,Qwen3.7-Max均展現(xiàn)出強勁且一致的性能,顯著超越Qwen3.6系列模型,證實了該模型已真正掌握了解決任務的能力,而非過擬合特定框架。
Qwen3.7-Max可以無縫集成到主流智能體框架和編程助手中,包括Claude Code、OpenClaw、Qwen Code等。
