4月2日,阿里发布千问新一代大语言模型Qwen3.6-Plus。这是继一个半月前推出Qwen3.5及近期的Omni版本后,阿里云在大模型领域的又一动作。此次发布的新模型将市场定位明确:“国产最强编程模型”,标志着人工智能的核心演进方向正从“理解世界”实质性地转向“改造世界”。
千问3.6拥有原生多模态理解和推理能力,整体性能大幅增强,在智能体编程SWE-bench系列评测、真实世界智能体任务Claw-Eval等权威评测中,千问3.6编程表现超越2倍乃至3倍参数量的GLM-5、Kimi-K2.5等模型,成为当下编程能力最强的国产模型,接近全球最强编程模型Claude系列。
在实际的极限应用测试环节,该模型在逻辑推演、复杂指令执行以及工程交付三个核心维度均展现出了极高的工业级可用性。
在底层逻辑推理方面,面对包含语言干扰和多步推导的复杂悖论难题,该模型抛弃了基于概率的直接猜测模式。
官方的测验是一道经典逻辑题:“甲说乙在说谎,乙说丙在说谎,丙说甲和乙都在说谎,已知只有一个人说真话,谁在说真话?”
这道题看起来简单,但其实非常考验模型。因为它不仅有语言干扰,还需要多步推导,而且很容易被直觉带偏。你真正要看的不是答案,而是过程。
结果Qwen3.6的表现,非常稳。它没有直接给结论,而是一步一步展开:先假设甲说真话,进行验证;再切换到丙,再做排除;最后收敛到唯一解:乙说真话。
整个过程是完整的“假设—验证—排除”链路。这一点非常关键。因为这说明它不是在“猜”,推导过程结构严密且步步有据,展现出了真正的深度思考能力。
在多重约束条件下的执行精准度测试中,该模型的表现同样稳定。
这次是一个多约束的写作任务:“300字以内写一段自我介绍,开头必须是反问句,不能出现“领先、智能、赋能”这三个词,结尾必须有一个比喻,语气要像资深科技记者。”
这类任务,在真实使用中非常典型。因为一旦条件变多,很多模型就会出现偏差:要么忘条件,要么风格不对,要么结构崩掉。
但面对要求特定身份语气、字数限制、强制包含特定修辞并严格规避行业术语等多维度的复杂写作指令,Qwen3.6-Plus能够完整且精准地达成所有条件。其生成的文本信息密度高、表达克制且逻辑清晰,摆脱了传统AI生成的机械感,具备直接作为专业商业稿件发布的标准。
第三个测试考验的是其在工程落地层面的产品级交付能力。在面对“做一个AI短视频脚本生成工具,能选题、生成、打分的网站。”这种需求时,该模型并未局限于单纯的代码生成,而是展现出了成熟的产品架构思维。它能够自主对宏观需求进行拆解,明确目标用户与核心功能模块。
接着往下走到工程层,规划技术栈选型、前后端分离方案以及数据流转机制,从选题到生成、到打分,再到优化,用户流程设计都已经设计好了。
在此基础上,模型不仅给出了完整的用户交互流程,还配套输出了底层交互提示词设计、接口代码示例甚至项目部署与成本优化建议。
这一套下来,Qwen3.6-Plus已经具备非常强的“产品级交付能力”,不是生成代码,而是从想法直接走到落地。
业内分析人士指出,Qwen3.6-Plus的发布具有行业风向标意义。它表明国产大模型的评判标准已从早期的“博学”和“趣味性”,全面转向“稳定性”与“工程交付能力”。当一个人工智能模型能够像资深员工一样独立完成任务拆解、规避业务禁区并输出系统性工程方案时,它已经从一个简单的对话辅助工具,蜕变为一个独立的数字生产单元。在这个数字劳动力加速普及的时代,企业与个人竞争力的核心,正迅速向如何有效调动、组织和驾驭这些智能资源的能力转移。
目前,Qwen3.6-Plus已上架阿里云百炼,每百万Tokens(词元)输入最低2元;千问3.6也已登陆悟空、千问APP等阿里AI应用和平台,开发者和个人用户可第一时间体验最新模型。(转载自AI普瑞斯)