蚂蚁集团发布并开源全模态大模型Ming-Flash-Omni 2.0
创始人
2026-02-11 13:01:20

IT之家 2 月 11 日消息,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出。

据介绍,Ming-Flash-Omni 2.0 是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。

业内普遍认为,多模态大模型最终会走向更统一的架构,让不同模态与任务实现更深层协同。但现实是,“全模态”模型往往很难同时做到通用与专精:在特定单项能力上,开源模型往往不及专用模型。蚂蚁集团在全模态方向已持续投入多年,Ming-Omni 系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新 2.0 版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

据IT之家了解,Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

手机影像洞察:从堆硬件向体验转... 文|DoNews网站 近年来,各大智能手机厂商均在影像领域投入了大量精力,不断推动影像功能的迭代升...
我国完成首次载人飞船返回舱海上... 据中国载人航天工程办公室消息,北京时间2026年2月11日,在长征十号运载火箭系统低空演示验证与梦舟...
中天科技获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示中天科技(600522)新获得一项发明专利授权,专利名为“一种...
银行存款“流失”?央行回应 2025年三季度,居民存款增速高位有所回落,引发舆论出现关于银行存款“流失”的探讨。2月10日,中国...
京东调整七鲜小厨扩展模式,计划... 来源:市场资讯 (来源:第一财经资讯) 上线半年后,京东旗下七鲜小厨公布了最新进展。 第一财经了解到...
李槿:2/11黄金趋势未改!静... 【汇金趋势掌乾坤,每日思路见真章】 昨日黄金主要维持区间震荡,欧盘给出5080-5000高空低多的思...
原创 特... 博弈背景溯源头 中美之间的较量,看似一场永无止境的马拉松。两国的互动总是你追我赶,且每一步都充满...
雷军:初代SU7正式停产 小米汽车初代SU7正式停产。 2月11日,小米创始人、董事长兼CEO雷军表示,前几天,随着最后一辆车...
美国FCC批准亚马逊部署450... 来源:滚动播报 美国联邦通信委员会(FCC)当地时间周二宣布,已批准亚马逊部署4500颗卫星的申请。...
智元代表“中国智造”亮相联合国... IT之家 2 月 11 日消息,据智元 AGIBOT 官方公众号今日分享,来自智元的远征 A2、灵犀...