视觉学习新突破:Meta开源WebSSL,摆脱语言束缚
创始人
2025-04-26 02:21:10

IT之家 4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。

以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。

Meta 公司针对上述痛点,在在 Hugging Face 平台上发布了 WebSSL 系列模型,涵盖 DINO 和 Vision Transformer(ViT)架构,参数规模从 3 亿到 70 亿不等。

这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。

WebSSL 模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用 224×224 分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。

模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。

实验揭示了多项关键发现:随着参数规模增加,WebSSL 模型在 VQA 任务上的表现接近对数线性提升,而 CLIP 在超过 30 亿参数后性能趋于饱和。

WebSSL 在 OCR 和图表任务中表现尤为突出,尤其在数据筛选后,仅用 1.3% 的富文本图像训练即超越 CLIP,在 OCRBench 和 ChartQA 任务中提升高达 13.6%。

此外,高分辨率(518px)微调进一步缩小了与 SigLIP 等高分辨率模型的差距,在文档任务中表现尤为出色。

WebSSL 模型在无语言监督下仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。

同时,WebSSL 在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上保持强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。

IT之家附上参考地址

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

可以要回在祥龙订购APP输的本... 可以要回在祥龙订购APP输的本金?亏的钱是有办法要回 已成功退款流程公开!掌上银牛APP、盈盈订购A...
怎么追回在椰海订购app的钱?... 怎么追回在椰海订购app的钱?不用慌张大卫有办法 好用的退款流程!椰海订购app亏损是能退回的!椰海...
怎么追回在正元恒邦输的钱?不用... 怎么追回在正元恒邦输的钱?不用慌张大卫有办法 有用的退款流程!近年来,随着投资理财热潮的兴起,大宗商...
怎么追回在珍牛订购APP的钱?... 怎么追回在珍牛订购APP的钱?要尽快维权退款 2026年正规维权流程!珍牛订购APP亏钱了是可以要回...
可以要回在指尖订购APP输的本... 可以要回在指尖订购APP输的本金?亏的钱是有办法要回 已成功退款流程公开!指尖订购APP亏钱了是可以...
怎么追回在全民投资APP的钱?...   怎么追回在全民投资APP的钱?不用慌张大卫有办法 2026年正规维权流程!  全民投资APP订购...
怎么退回在掌上订购白银APP的... 怎么退回在掌上订购白银APP的本金?不用担心可以退款 成功不收费退款流程!市场上存在大量假冒铂银名义...
哈尔滨贵金属输了很多钱怎么退款... 哈尔滨贵金属输了很多钱怎么退款?解决办法有很多亏损了很多钱有人成功要回了!有用的退款流程!拇指订购A...
可以要回在金牛订购APP亏损的... 可以要回在金牛订购APP亏损的本金?不用怕大卫有办法 成功不收费退款流程!拇指订购APP、全新订购A...
Aetherflux宣布太空数... IT之家 12 月 14 日消息,此前专注于太空太阳能发电的企业 Aetherflux 美国加州当地...