苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
创始人
2025-05-13 18:21:55

IT之家 5 月 13 日消息,苹果机器学习团队上周在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM,提供 0.5B、1.5B、7B 三个版本。

据介绍,该模型基于苹果自研 MLX 框架开发并借助 LLaVA 代码库进行训练,专为 Apple Silicon 设备的端侧 AI 运算进行优化。

技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。

其核心是一个名为 FastViTHD 的混合视觉编码器。苹果团队表示,该编码器“专为在高分辨率图像上实现高效的 VLM 性能而设计”,其处理速度较同类模型提升 3.2 倍,体积却仅有 3.6 分之一。

亮点
  • FastViTHD 新型混合视觉编码器:专为高分辨率图像优化设计,可减少令牌输出量并显著缩短编码时间
  • 最小模型版本性能对比:较 LLaVA-OneVision-0.5B 模型实现首词元(Token)响应速度提升 85 倍,视觉编码器体积缩小 3.4 倍
  • 搭配 Qwen2-7B 大语言模型版本:使用单一图像编码器即超越 Cambrian-1-8B 等近期研究成果,首词元响应速度提升 7.9 倍
  • 配套 iOS 演示应用:实机展示移动端模型性能表现

苹果技术团队指出:“基于对图像分辨率、视觉延迟、词元数量与 LLM 大小的综合效率分析,我们开发出 FastVLM—— 该模型在延迟、模型大小和准确性之间实现了最优权衡。”

该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜,同期或将发布搭载摄像头的 AirPods 设备。

FastVLM 的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。IT之家查询获悉,MLX 框架允许开发者在 Apple 设备本地训练和运行模型,同时兼容主流 AI 开发语言。FastVLM 的推出证实苹果正构建完整的端侧 AI 技术生态。

参考资料:

  • https://github.com/apple/ml-fastvlm?tab=readme-ov-file
⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

荣耀600系列发布会定档5月2... 【CNMO科技消息】5月14日,荣耀正式官宣全新数字系列新品——荣耀600系列,并宣布新机将于5月2...
推荐iPhone 17,主要是... 推荐iPhone 17,主要是因为它这次升级很实在,性价比高!标准版4499元起,用上了A19芯片,...
助力低空安全 浙江移动发布低空... 5月15日,在2026浙江省信息通信行业“5·17”电信日主题活动上,浙江移动发布了低空智联网“4S...
黄金跳水 连续四日下挫!今日跌... 财联社5月15日讯(编辑 王蔚)今日,黄金价格跳水,日内跌幅超2%,已连续四个交易日走低,截至发稿日...
佳源服务股东大会全票反对重选阮... 观点网讯:5月15日,佳源服务控股有限公司召开2026年股东周年大会,其中重选阮红女士为非执行董事的...
小米开源自动驾驶模型 Xiao... 5月14日消息,小米正式开源自动驾驶模型Xiaomi OneVL。小米CEO雷军亲自解读了该模型的技...
李彦宏首提 DAA,需问 DA... 5 月 13 日,Create2026 百度 AI 开发者大会在北京开幕。李彦宏在开幕演讲中提出了一...
跨境贸易便利化行动再升级!国际... 5月15日凌晨,一批来自孟加拉国达卡的3150公斤服装产品,在双流国际机场空侧快速完成换单后,直接搭...
股价位列A股第四!科创板“新秀... 财联社5月15日讯(编辑 梓隆),今日(5月15日),联讯仪器长阳攀升,截至收盘,其大涨超6%,盘中...
八年后,他再次站在甲醛仪前,关... 我干了八年空气检测,钻过上千户人家的新房子,拧开过几万支采样管。今天,我想讲几个故事,关于那些“免费...