谷歌发布Agentic Vision:模仿人类处理图像,让AI学会“放大看”
创始人
2026-01-28 15:41:09

IT之家 1 月 28 日消息,谷歌 DeepMind 团队昨日(1 月 27 日)发布博文,宣布在 Gemini 3 Flash 模型基础上,推出“智能体视觉”(Agentic Vision)功能。

IT之家援引博文介绍,传统 AI 模型在处理图像时,通常仅进行一次静态扫描,这种方式若遗漏了芯片序列号或远处的路牌等细微细节,模型便只能依靠猜测来生成答案。

Gemini 3 Flash 引入的“智能体视觉”打破了这一局限,将视觉理解转化为一个主动调查的过程。模型不再被动接收信息,而是通过结合视觉推理与代码执行,模仿人类“思考、行动、观察”循环处理图像,从而确立答案的视觉证据。

“智能体视觉”功能的核心,在于形成“思考-行动-观察”闭环:

  • 首先是“思考”阶段,模型分析用户查询和初始图像,制定多步计划;
  • 紧接着进入“行动”阶段,模型生成并执行 Python 代码来主动操作图像(如裁剪、旋转、标注)或进行分析(如计算边界框);
  • 最后是“观察”阶段,变换后的图像被追加到模型的上下文窗口中。

这一机制让 Gemini 3 Flash 能够利用更新后的数据和更佳的语境进行二次检查,从而生成基于事实的最终回复。

引入代码执行能力后,Gemini 3 Flash 在多数视觉基准测试中质量提升了 5-10%。以建筑图纸验证平台 PlanCheckSolver.com为例,该平台利用此功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提高了 5%。

此外,在处理视觉数学问题时,模型不再依赖概率猜测,而是通过编写代码识别原始数据并调用 Matplotlib 库绘制精确图表,有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。

Google DeepMind 表示这仅仅是开始。目前的 Gemini 3 Flash 已擅长隐式决定何时放大细节,未来版本将无需用户显式提示即可自动执行旋转图像或视觉运算等操作。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

机器人入驻!泰达泵站运维进入智... 日前,天津经开区泵站机器人智能巡检项目已建成并投入运行。该项目以“机器人+AI+物联网”为核心架构,...
郑州银行[002936]郑州银... 本版导读 2026-01-31 2026-01-31 2026-01-31 2026...
金价飙升迫使意大利珠宝商在设计... 来源:格隆汇APP 格隆汇1月30日|为应对创纪录的金价冲击,意大利珠宝商正重新调整设计,削减黄金用...
原创 从... 前言 说出来你可能不信,咱们中国明明是全球锂电池生产的“扛把子”,哐哐造电池供给全世界,背地里却被锂...
从“买商品”到“品文化” 更多... 来源:中国金融信息网 新华财经北京1月30日电 题:从“买商品”到“品文化” 更多中国品牌“圈粉”世...
获奖在校硕博每人50万,腾讯青... 1月30日,腾讯“青云奖学金”颁奖。作为腾讯支持青年人才和科学研究的项目,“青云奖学金”首期评选出1...
图特林根取得一种校正件专利,缩... 国家知识产权局信息显示,广东图特林根科技有限公司取得一项名为“一种校正件”的专利,授权公告号CN22...
普京收到特朗普请求,俄方停止袭... 据@CCTV国际时讯 消息,今天(1月30日),俄罗斯总统新闻秘书佩斯科夫证实,俄罗斯总统普京已收到...
特变电工:为控股子公司提供担保 每经AI快讯,特变电工1月30日晚间发布公告称,为满足控股子公司特变电工杜尚别矿业有限公司(以下简称...
乙肝表面抗原阳性啥意思?一文讲... 在体检报告中看到“乙肝表面抗原阳性”,很多人会瞬间紧张焦虑,甚至联想到严重健康问题。其实这个指标阳性...