DeepResearch 的价值在于把「查资料」变成「做研究」:不是搜到一条就回答,而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编」的风险,特别适合那些信息分散、容易混淆、需要多步推理和多来源佐证的复杂问题。
工业级 deepresearch LLM(如 tongyi-deepresearch、MiroThinker),将文本 DeepResearch 性能从探索级提高到了与闭源模型的 agentic reasoning pipeline 相当的性能,但多模态 DeepResearch 依然处在初期。
图 1A:指出现有多模态深度研究在图像搜索上的两大瓶颈:忽视搜索引擎命中率问题(单次全图 / 实体检索常失败,不同尺度裁剪结果波动大),以及推理深度与检索广度不足(轨迹短、交互少)。图 1B:展示整体流程:自动合成高质量 VQA 与多轮轨迹,并通过 SFT+RL 把深研能力内化到 MLLM 中,使其能进行多轮、多实体、多尺度的视觉与文本搜索。底部结果对比表明:在统一的 agentic 推理设置下,模型以更小参数规模在 6 个基准上达到 SOTA。
在现实世界中,多模态 DeepResearch 有着重要意义,其将研究能力从「只看文字」扩展到「文字 + 图片 / 图表 / 截图等」。现实世界里很多关键信息就藏在视觉内容里:一张照片里的标志、一个产品细节、一页报告截图里的表格、一张地图或示意图。
多模态 DeepResearch 能把这些视觉线索也当成证据来使用:先从图片中抓住关键点,再去查文字资料验证补全,必要时再回到图片继续核对,最后把图文证据一起整合成更可靠、更完整的答案。这样不仅覆盖的信息更全,也更接近人类真实的研究方式。
基于此,作者构建了一个面向真实世界搜索环境的多模态 deep-research 大模型,通过 VQA 数据合成 + 轨迹合成 + 冷启动 + 大规模强化学习,解决当前工作所忽略的引擎命中率问题,将推理轮数提高到数十轮,与搜索引擎交互次数提高到了数百次。
相比于之前的 multimodal deep-research MLLM 在 6 个主流 benchmark 上几乎翻倍性能,对比例如 gpt5、gemini2.5pro、claude4 等强大闭源模型的 agentic reasoning pipeline,使用 30B-A3B 甚至 8B 参数规模几乎都取得了领先或者相当的性能。
基线对比 Demo:
更多 case 展示:
现有一些多模态 DeepResearch 的探索,在真实网页环境里经常卡在两道硬坎,这导致他们缺乏实际应用价值:
Vision-DeepResearch 提出新的多模态深度研究范式:把检索从「一次性操作」升级为多轮试探 — 反馈 — 再检索的长期交互过程,支持几十步推理、上百次引擎交互,让模型像人一样在噪声环境中不断缩小范围、验证证据,最终稳定命中关键事实。
方法核心:多尺度视觉检索 + 文本深研接力 + 端到端内化
整体路线是「高质量长轨迹合成 → 冷启动 SFT → 在线高效异步 RL 内化能力」:
图 2 数据管线高质量轨迹数据生成;多跳复杂 VQA 合成
实验:小参数也能打到 SOTA,长视野交互是关键增益来源
性能强大:在 VDR、FVQA、MMSearch (+)、LiveVQA、BC-VL 等 6 个基准上:
消融结论明确:
VDR-Bench:重新定义视觉深研评测!2,000 条「必须做视觉搜索」的真实难题,专治文本捷径与全图完美检索
多模态深度研究系统越来越多,但评测却长期「不对题」:很多基准存在两类系统性漏洞:
图 3 现有评测基准两大缺陷
VDR-Bench 为此提出一套更贴近现实的评测基准:2,000 条多跳 VQA,覆盖 10 个视觉域,强调必须通过局部实体发现 + 迭代裁剪检索 + 文本多跳推理才能可靠作答,从源头减少捷径与「全图一把梭」
基准构建核心:从「视觉实体」出发,强制闭环证据链
VDR-Bench 采用严格的「视觉优先」多阶段流程:
图 4 多阶段数据标注管道
在 VDR-Bench 上,模型必须主动检索才有明显提升,并且作者发现「Lazy Search(懒搜索)」:越强的模型越可能依赖先验知识、反而不愿意充分调用视觉检索,导致深研题表现不匹配其基础能力。
为缓解这一点,作者提出 Multi-turn Visual Forcing(MVF):在推理流程上强制多轮、多尺度裁剪与验证,大幅提升深度检索性能。
意义与未来
Vision-DeepResearch 证明:多模态深研能力的关键不只是「会调用工具」,而是要在噪声世界里形成长视野、可试错、可验证的检索 — 推理闭环;并且通过可规模化数据合成与 RL,可以把这种行为从 workflow 变成模型的内生能力。
VDR-Bench 把「视觉深研」从「能不能答对」升级为「能不能在噪声世界里定位 — 检索 — 验证 — 多跳推理」,为后续模型与 Agent 训练提供更真实的测试平台,也让社区更清楚:下一代多模态深研系统的瓶颈到底在哪里?