谷歌发布首个原生多模态嵌入模型Gemini Embedding 2
创始人
2026-03-11 08:46:11

3月10日,谷歌DeepMind推出Gemini Embedding 2,这是该公司首个原生多模态嵌入模型,将文本、图像、视频、音频及文档统一映射至单一嵌入空间,标志着AI嵌入技术迈入全模态融合的新阶段。

Gemini Embedding 2支持超100种语言的语义理解,并在文本、图像及视频任务的基准测试中超越现有主流模型,同时引入了此前嵌入模型所欠缺的语音处理能力。

该模型现已通过Gemini API及Vertex AI进入公开预览阶段,开发者可即时接入。

对于企业用户而言,该模型的发布直接降低了构建多模态检索增强生成(RAG)、语义搜索及数据分类系统的技术门槛,有望简化此前需跨模态分别处理的复杂数据管道。

全模态统一:从文本扩展至五类媒体形式

Gemini Embedding 2基于Gemini架构构建,将嵌入能力从纯文本扩展至五类输入形式:

  • 文本支持最多8192个输入token;
  • 图像每次请求最多处理6张,支持PNG及JPEG格式;
  • 视频支持最长120秒的MP4和MOV文件;
  • 音频可直接摄入并生成嵌入向量,无需经过中间文本转录步骤;
  • 文档则支持最多6页的PDF文件直接嵌入。

区别于逐一处理单一模态的传统方式,该模型支持交错输入,即在单次请求中同时传入图像与文本等多种模态组合,使模型能够捕捉不同媒体类型之间复杂而细微的语义关联。

Gemini Embedding 2延续了谷歌此前嵌入模型中采用的Matryoshka表示学习(MRL)技术。该技术通过"嵌套"方式动态压缩向量维度,使输出维度可从默认的3072灵活缩减,帮助开发者在模型性能与存储成本之间取得平衡。

基准测试领先,语音能力为新亮点

谷歌表示,Gemini Embedding 2在文本、图像及视频任务的基准测试中均优于当前主流竞品模型,并将其定位为多模态嵌入领域的新性能标杆。

谷歌建议开发者根据应用场景选择3072、1536或768三档维度,以获得最优质的嵌入效果。这一设计对于需要大规模部署嵌入向量的企业尤为重要,可在不显著牺牲精度的前提下有效控制基础设施成本。

在能力覆盖方面,该模型引入了此前同类模型普遍缺失的原生语音嵌入能力,无需借助语音转文字的中间环节即可直接处理音频数据。

谷歌指出,嵌入技术已广泛应用于其多款产品之中,覆盖RAG场景下的上下文工程、大规模数据管理以及传统搜索与分析场景。

目前已有部分早期访问合作伙伴开始基于Gemini Embedding 2构建多模态应用,谷歌称这些用例正在兑现该模型在高价值场景中的实际潜力。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

最新!国家税务总局2026年第... 国家税务总局 关于啤酒计征消费税有关问题的公告 国家税务总局公告2026年第8号 根据 一、啤酒生产...
公募基金百日业绩亮相,赛道博弈... 证券日报4月6日报道,2026年行情即将迈入百日节点,公募基金业绩分化进一步加剧。截至最新数据,年内...
中国AI热潮点燃资本市场,港股... 受中国人工智能板块持续升温驱动,香港股票市场2026年第一季度融资规模创下五年新高,在全球主要交易所...
新睿电子IPO闯关陷困局:漏洞... 作为工业自动控制系统装置制造领域的专精特新“小巨人”,临海市新睿电子科技股份有限公司(以下简称“新睿...
成都小程序开发公司 行业痛点分析 在成都小程序开发领域,诸多痛点制约着行业发展。数据表明,超 60%的客户不清楚小程序的...
原创 伊... 一、最后通牒成纸老虎:美国在霍尔木兹有点指挥不动了 特朗普曾经给出一个48小时最后通牒,气势汹汹地宣...
原创 天... 2026年4月3日12时17分,天龙三号火箭在酒泉卫星发射中心的首飞失败,标志着我国商业航天领域的一...
怕卡顿、拍照丑、续航崩?viv... 今天这一期是我个人的体验分享,因为目前我就是用的是X200S,讲实话总体还阔以! 但不得不说在买vi...
觅瑞回应:预付款项核查稳步推进... 本报讯 (记者袁传玺)4月1日,港股生物医药上市企业MirxesHoldingCompanyLimi...
清晨,直线拉升!霍尔木兹海峡,... 霍尔木兹海峡局势牵动全球能源市场神经。 北京时间4月6日清晨,国际油价直线拉升,WTI原油期货一度大...