国产毛片基地,综合网成人,va亚洲va日韩不卡在线观看,欧美一区二区三区aa,国产日韩亚洲,黄色成人影视,欧美天天爽

同花順 Logo
AIME助手
問財助手
千問發(fā)布Qwen3.7-Max 致力成為全能的智能體基座
2026-05-20 13:50:45
分享
AIME

問財摘要

1、5月20日,千問正式發(fā)布Qwen3.7-Max——面向智能體時代的新一代旗艦模型,即將通過API提供服務。Qwen3.7-Max致力于成為全能的智能體基座——無論是編寫和調試代碼、自動化辦公流程,還是在跨越數(shù)百乃至數(shù)千步的長周期任務中持續(xù)自主執(zhí)行,都能勝任。
免責聲明 內(nèi)容由AI生成
文章提及標的
周期--

5月20日,千問正式發(fā)布Qwen3.7-Max——面向智能體時代的新一代旗艦模型,即將通過API提供服務。Qwen3.7-Max致力于成為全能的智能體基座——無論是編寫和調試代碼、自動化辦公流程,還是在跨越數(shù)百乃至數(shù)千步的長周期(883436)任務中持續(xù)自主執(zhí)行,都能勝任。

據(jù)悉,Qwen3.7-Max的核心優(yōu)勢在于智能體能力的廣度與深度:編程方面,從前端原型開發(fā)到復雜的多文件工程均能駕馭;辦公與生產(chǎn)力方面,通過MCP集成和多智能體協(xié)作實現(xiàn)工作流自動化;長周期(883436)自主執(zhí)行方面,在一項長達35小時、超過1000次工具調用的全自主內(nèi)核優(yōu)化實驗中保持了連貫推理,充分驗證了其持久穩(wěn)定的執(zhí)行能力;此外,無論部署在Claude Code、OpenClaw、Qwen Code還是其他框架下,都能穩(wěn)定發(fā)揮出色的跨框架泛化能力。

Qwen3.7-Max—即將通過阿里云百煉提供服務:

前沿編程智能體:從前端原型到復雜軟件工程

辦公生產(chǎn)力與工作流自動化,支持MCP集成和多智能體協(xié)作

持續(xù)穩(wěn)定的長周期自主執(zhí)行能力

跨多種智能體框架的泛化能力您可以通過阿里云百煉API調用(即將上線)。

模型表現(xiàn)

在編程智能體方面,Qwen3.7-Max在SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和QwenSVG(1608)上均取得領先表現(xiàn)。在Terminal Bench2.0-Terminus(69.7)上超越DS-V4-Pro Max(67.9)。在SWE-Verified(80.4)上與Opus-4.6Max(80.8)和DS-V4-Pro Max(80.6)表現(xiàn)相當。

在通用智能體方面,提升更為顯著。Qwen3.7-Max在MCP-Mark(60.8vs.GLM-5.1的57.5)、MCP-Atlas(76.4vs.Opus-4.6的75.8)和Skillbench(59.2vs.K2.6的56.2)上表現(xiàn)突出,并在Kernel Bench L3(1.98倍中位數(shù)加速,96%加速率)上展示了強大的GPU內(nèi)核優(yōu)化能力。在BFCL-V4(75.0)、Qwenclaw(64.3)和ClawEval(65.2)上同樣表現(xiàn)出色,緊追Opus-4.6Max。在辦公自動化基準SpreadSheetBench-v1上得分87.0,處于頂尖水平。

在推理方面,Qwen3.7-Max在GPQA Diamond(92.4vs.Opus-4.6的91.3)、HLE(41.4vs.Opus-4.6的40.0)、HMMT2026Feb(97.1vs.Opus-4.6的96.2)、IMOAnswerBench(90.0vs.DS-V4-Pro的89.8)和Apex(44.5vs.DS-V4-Pro的38.3)上均取得領先成績,在高難度推理基準上展現(xiàn)了強大實力。

在通用能力與多語言方面,Qwen3.7-Max在IFBench(79.1vs.DS-V4-Pro的77.0)上表現(xiàn)突出,展示了精準的指令遵循能力。在WMT24++(85.8)和MAXIFE(89.2)上同樣領先,表明其多語言理解和翻譯質量處于一流水平。在SuperGPQA(73.6)和QwenWorldBench(57.3)上同樣表現(xiàn)出色。

值得強調的是,上述評測分數(shù)來自多種不同的智能體框架。Qwen3.7-Max并非針對某一特定框架優(yōu)化,而是在Claude Code、OpenClaw、Qwen Code和各類自定義工具使用框架下都能穩(wěn)定發(fā)揮,是各類智能體系統(tǒng)的可靠底座。

生產(chǎn)力助手

面向真實生產(chǎn)力場景,Qwen3.7-Max將成為您的深度協(xié)作者。依托強大的智能體能力,全面重塑專業(yè)工作流:海量信息的全面研讀與整合、復雜數(shù)據(jù)的深度分析與建模、出版級文檔與可視化生成——精準承接高復雜度、高強度的企業(yè)級任務。

Qwen3.7-Max原生適配主流智能體框架。面向長鏈路交付任務,支持長達數(shù)小時的自主規(guī)劃與運行,通過上千次工具調用,數(shù)十輪版本迭代,持續(xù)提升交付物質量。以往需專業(yè)團隊耗時一至兩周的復雜項目,現(xiàn)由Qwen3.7-Max驅動的智能體即可在數(shù)小時內(nèi)完成端到端交付閉環(huán),推動生產(chǎn)力實現(xiàn)真實躍升。

智能體擴展

在 Qwen3.5中引入的環(huán)境擴展方法基礎上,Qwen3.7進一步大幅擴展了智能體訓練環(huán)境的質量與多樣性。正如語言模型從多樣化的預訓練文本中獲得泛化能力,我們發(fā)現(xiàn)智能體能力同樣可以從多樣化的訓練環(huán)境中實現(xiàn)泛化。

如下圖所示,這種環(huán)境擴展帶來了清晰且穩(wěn)定的性能提升軌跡,Qwen3.7-Max在綜合排名中位列前三,接近Claude-4.6-Opus-Max的水平。值得注意的是,我們評測中所有基準測試所涉及的環(huán)境均為訓練中從未出現(xiàn)過的全新領域外環(huán)境。

我們還觀察到擴展行為中一個顯著的可預測性:任意基準子集上的性能增益高度一致,可以可靠地預測其余基準或整體平均值的相對增益,表明環(huán)境擴展驅動的是真正的能力泛化,而非針對特定基準的提升。關于擴展動態(tài)和方法論的進一步分析將在即將發(fā)布的技術報告中詳細介紹。

跨框架泛化能力

我們的Rollout環(huán)境基礎設施將每個訓練實例解耦為三個正交組件——任務(Task)、運行框架(Harness)與驗證器(Verifier),這些組件可自由重組。我們兼容多種運行框架及其迭代版本,并將環(huán)境立足于真實場景而非合成替代品。這種解耦設計實現(xiàn)了組合式擴展:同一任務能以極低的邊際成本,與不同類型、不同版本的框架及驗證器相匹配。更關鍵的是,它賦能了跨框架與跨驗證器的強化學習(RL)訓練——使模型在多變的框架配置下處理同源任務,從而迫使其學習具備泛化能力的解題策略,而非依賴特定框架的捷徑。在QwenClawBench與CoWorkBench評測中,無論評估時使用何種運行框架,Qwen3.7-Max均展現(xiàn)出強勁且一致的性能,顯著超越Qwen3.6系列模型,證實了該模型已真正掌握了解決任務的能力,而非過擬合特定框架。

Qwen3.7-Max可以無縫集成到主流智能體框架和編程助手中,包括Claude Code、OpenClaw、Qwen Code等。

免責聲明:風險提示:本文內(nèi)容僅供參考,不代表同花順觀點。同花順各類信息服務基于人工智能算法,如有出入請以證監(jiān)會指定上市公司信息披露平臺為準。如有投資者據(jù)此操作,風險自擔,同花順對此不承擔任何責任。
homeBack返回首頁
不良信息舉報與個人信息保護咨詢專線:10100571違法和不良信息涉企侵權舉報涉算法推薦舉報專區(qū)涉青少年不良信息舉報專區(qū)

浙江同花順互聯(lián)信息技術有限公司版權所有

網(wǎng)站備案號:浙ICP備18032105號-4
證券投資咨詢服務提供:浙江同花順云軟件有限公司 (中國證監(jiān)會核發(fā)證書編號:ZX0050)
AIME
舉報舉報
反饋反饋