昆仑万维推出并开源Skywork UniPic
创始人
2025-07-31 07:21:01

本报讯 (记者李乔宇)7月30日,昆仑万维科技股份有限公司(以下简称“昆仑万维”)正式推出并开源采用自回归路线的多模态统一预训练模型Skywork UniPic,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性。

据悉,Skywork UniPic在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核心任务,构建了真正统一的多模态模型架构。

传统多模态统一模型多依赖VQ或VAE编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性。它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。

为此,Skywork UniPic团队借鉴Harmon架构设计,并在表征方式上做出关键调整。采用MAR编码器作为图像生成路径的视觉表征基础,同时引入SigLIP2作为图像理解路径的主干。

此外,Skywork UniPic完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促进,突破传统方法中能力权衡的技术瓶颈。这一架构设计不仅保持了自回归模型的简洁高效,更通过共享编码器实现了跨任务的深度协同,为多模态统一模型的实用化部署奠定了基础。

在追求模型能力极限的同时,Skywork UniPic也坚持效率重要性的设计理念。Skywork UniPic以1.5B的紧凑参数规模,在无CoT(思维链)的情况下取得了SOTA(“当前最佳水平”)分数,逼近部分较大模型带CoT的0.88分;在DPG-Bench复杂指令生图基准上达到85.5分的行业SOTA水平。

(编辑 张明富)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

原创 A... 今日,京东在京召开媒体发布会,宣布今年京东618将于5月30日晚8点正式开启。而今年京东618最大的...
寻城记——XR解码济南大明湖西... 齐鲁晚报·齐鲁壹点 王建伟 于子洋 5月18日,国际博物馆日到来之际,山东数字文化集团推出创意视频《...
英国拟调整银行业务分离规则 据路透社5月18日报道,英国政府今日发布银行业务分离(ring-fencing)规则的拟议改革方案,...
最低月租9.9元!中国电信推出... 中国电信(资料图) 5月17日,中国电信推出系列试商用“Token套餐”,具体包括以下三部分内容: ...
广东省贸促会周部长及企业代表莅... 2026年5月16日下午,广东省贸促会周油松部长、东莞市森亿合智能包装有限公司周邦副总经理、广州同华...
A股震荡,如何布局? 5月18日,A股延续调整态势,超3000只个股收跌,有色金属、大消费、医药等板块领跌;电子、计算机等...
中山大学:构建人工智能人才培养... 近日,教育部等五部门发布《“人工智能+教育”行动计划》,提出推动人工智能人才培养与素养提升、促进人工...
华为申请通信方法和通信装置专利... 国家知识产权局信息显示,华为技术有限公司申请一项名为“通信方法和通信装置”的专利,公开号CN1220...
Odoo免费开源社区版:Odo... 地区:中国广东省东莞市 行业:电脑配件制造 已应用模块:销售、财务、库存,以及淘宝、京东、多公司...
3D硬金凭什么比黄金贵?看完终... 在黄金消费市场,你可能会发现一个有趣的现象:同样是黄金饰品,3D硬金的价格往往比传统黄金高出不少。这...