苹果优化其基础模型的上下文窗口管理能力
创始人
2026-03-29 12:33:07

作者 | Sergio De Simone

译者 | 明知山

iOS 26.4 已推出候选版本,针对 Apple 基础模型优化了上下文窗口管理能力,帮助开发者应对 4096 Token 的上下文限制。这要求开发者将上下文窗口视作一种受限资源,像在低资源环境中管理内存一样进行主动管理,从而提升使用效率。

与大多数大语言模型一致,上下文窗口是承载系统指令、用户提示词与模型回复的核心资源。由于 Apple 基础模型采用端侧运行,其可用上下文窗口相对有限,极易被占满;尤其在对话类会话场景中,用户提问与模型回复会持续累积,进一步加剧资源占用。

在这种情况下,框架会抛出 .exceededContextWindowSize错误,模型将无法在当前会话中继续做出响应。若要恢复正常交互,开发者需要新建会话并重新初始化状态,从而在不影响用户体验的前提下顺畅延续原有工作流程。

在此前的 技术说明 中,Apple 梳理了开发者主动应对上下文窗口限制的实用策略,例如:将复杂任务拆分为多轮模型会话、引导模型生成更精简的回复、通过摘要压缩或保留核心对话轮次来精简提示词,以及高效合理地调用工具。

为便于开发者监控上下文窗口占用情况,iOS 26.4 在 SystemLanguageModel中新增了 contextSize 属性,用于返回可用上下文容量;同时提供了 tokenCount(for:)) 方法,可计算指定输入所消耗的 Token 数量。尽管当前上限为 4096 Token,但 contextSize可避免开发者硬编码该上限,而 tokenCount(for:)则提供了基础的 Token 统计能力,让应用能够实现动态调整。

即便能够获知上下文窗口大小并统计 Token 消耗,仍无法完全解决开发中的痛点,因为精细化管理 Token 开销并非易事。在一篇实操文章中,Artem Novichkov 提出了一套行之有效的解决方案。

Artem 指出,开发者需要考量构成上下文的所有组件,包括系统提示词与用户指令,同时还需要留意工具调用对上下文窗口占用带来的影响——这一点往往容易被忽视:

调用工具时,工具定义(名称、描述及参数结构)会被序列化,并随指令一同传入上下文,这会显著增加 Token 消耗。

请注意,Artem 在文中提及的 tokenUsage(for:)方法在最新候选版中已更名为 tokenCount(for:)。他同时指出,基础模型框架中的这些新增接口均标注了 @backDeployed(before: iOS 26.4, macOS 26.4, visionOS 26.4),因此可在所有支持该框架的旧系统版本上使用。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

理邦仪器获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示理邦仪器(300206)新获得一项实用新型专利授权,专利名为“...
原创 突... 原本计划在2024年11月实施的阿尔忒弥斯2号载人绕月飞行任务,由于种种原因推迟到了今年2月,后来又...
飞猪、千问再与30余家旅行品牌... 来源:市场资讯 (来源:网易智能) 4月2日消息,飞猪与千问今日宣布再与30多家旅行品牌达成AI合作...
Space X上市,马斯克“踢... 来源:略大参考 有人说,投行看似高大上,但其本质就是中介,是给股票找到买家。而对马斯克这样有强大市...
原创 摊... 2025年世界互联网大会乌镇峰会上,一份报告悄然发布,没搞发布会,也没热搜轰炸,但懂行的人一看数据,...
2025年Q4中国PC市场:联... 2026-04-02 10:40:39 作者:狼叫兽 2026年4月2日,Omdia最新发布的2...
今麦郎:不再使用“手打”商标 针对今麦郎“手打挂面”争议,4月1日,今麦郎集团创始人、董事长范现国发布视频称,“手打”商标是200...
原创 苏... 人类曾经做过许多看似疯狂的事情,而通过不懈的努力,我们竟然成功地实现了其中不少。虽然如此,依然有许多...
小米新机入网,涨价已成定局? 根据中国质量认证中心的最新信息,一款型号为2604FRK1EC的手机入网,可以确定的是,该机型正是R...
CBCX:AI驱动美国核能建设... 来源:市场资讯 4月2日,CBCX表示,微软与英伟达正在联合推出一套AI驱动的核能开发工具包,旨在显...