北大清华等联合发布LLaVA-o1:首个自发性视觉 AI 模型
创始人
2024-11-19 17:21:15

IT之家 11 月 19 日消息,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性(Spontaneous,具体解释可参考文末)、类似于 GPT-o1 的系统性推理视觉语言模型。

UP 主:唐国梁 Tommy

LLaVA-o1 是一种新型的视觉语言模型(VLM),其设计目标是进行自主的多阶段推理。

LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。

该模型使用名为 LLaVA-o1-100k 的数据集进行微调,该数据集源自视觉问答(VQA)来源和由 GPT-4o 生成的结构化推理注释。

LLaVA-o1 采用了阶段级束搜索(stage-level beam search)的推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选取最佳答案。

该模型在处理复杂任务时具备较强的能力,在复杂视觉问答任务中,可以突破传统视觉语言模型的局限性。

与基础模型相比,LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能,超过了许多大型和闭源的竞争对手。

LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白,在多个基准测试中的优异表现,特别是在数学和科学视觉问题的推理领域,展示了结构化推理在视觉语言模型中的重要性。

自发性人工智能(Spontaneous AI)是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

IT之家附上参考地址

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

网传“三大运营商即将免月租”,... 最近,大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出免月租、按量计费套餐。有不...
23个隐藏工具曝光!Anthr... 新智元报道 编辑:元宇 【新智元导读】从4.6到4.7,哪些旧禁令消失了?哪些新红线被划下?Cla...
南开人工智能校友分会成立!发展... 智启南开,共赴新程。为深入推进南开大学“新工科”建设,凝聚校友力量赋能人工智能学科高质量发展,5月1...
基地启用 机器人有了国家级职业... 5月16日,国家人工智能应用中试基地(具身智能)在浙江杭州挂牌启用,机器人有了国家级职业技能训练场。...
CERN的奠基之路和日本团队的... 缪子作为第二代轻子,是1936年美国物理学家卡尔·安德森(Carl D. Anderson,因发现正...
“爱达·花城号”开启试航 为何... 5月16日,第二艘国产大型邮轮“爱达·花城号”从中船集团上海外高桥造船5号码头启航,开始为期12天的...
大疆、影石的“师父”,撑不下去... 一则出售消息,让沉寂已久的 GoPro 股价突然暴涨。 北京时间5月12日一早,这家美国运动相机厂商...
全面升级!广州天河率先落地全国... 加快构建万兆光网区域样板! 全国首个万兆AI商圈 落地广州天河 5月16日,“万兆AI惠商,联通美好...
新华社记者探访机器人国家级“职... 16日,国家人工智能应用中试基地(具身智能)在浙江杭州挂牌启用,机器人有了国家级“职业技能训练场”。...
第十二届知乎新知青年大会:见证... 在AI重塑内容生态、人人皆为创作者的时代,怎样获取更具价值的新知?5月16日,围绕这一议题,第十二届...