DeepSeek重大发布！NSA媲美甚至超越了全注意力基线模型_资讯

DeepSeek重大发布！NSA媲美甚至超越了全注意力基线模型

创始人

2025-02-19 00:01:40

DeepSeek突传大动作。

2月18日，DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理。通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。

与此同时，人工智能初创公司月之暗面也有大动作。2月18日，其宣布推出一款新模型Kimi Latest，它将对标Kimi智能助手当前使用的模型，随智能助手产品更新而同步升级（模型名称始终不变），用户现已可在Kimi开放平台体验。

市场层面，2月18日，港股DeepSeek概念股延续强势，截至收盘，出门问问大涨超16%，创梦天地大涨超12%、美图公司大涨超10%、快手涨超9%。高盛最新研报指出，DeepSeek-R1及中国本土AI模型的突破性进展，正在重塑科技产业叙事逻辑。

DeepSeek发布

2月18日，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力），官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制，用于超快速的长上下文训练和推理。

DeepSeek表示，通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上，它的表现与完全注意力模型相当甚至更好。

值得一提的是，在这篇名为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的论文署名中，DeepSeek创始人兼CEO梁文锋也作为共创在列。

根据最新发布的论文，NSA的核心亮点可以概括为以下两点：

1.动态分层稀疏策略：NSA采用了一种动态分层的稀疏策略，结合了粗粒度的Token压缩和细粒度的Token选择。这种策略既提升了效率，也保留了模型对全局长上下文的感知能力和局部精确性。

2.两大关键创新：算术强度平衡的算法设计与硬件优化，NSA通过精巧的算法设计，并针对现代硬件进行了实现优化，显著提升了计算速度；可训练的稀疏注意力，NSA支持端到端训练，减少了预训练计算成本，同时保持模型性能。

实验结果显示，NSA在多个基准测试中表现出色，甚至超越了全注意力基线模型。

在8卡A100计算集群上，NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍，由于减少了内存访问量，NSA在长序列解码时相较于全注意力模型速度显著提升。

在处理64k长度的序列时，NSA在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升，最高可达11.6 倍。

实验表明，NSA不仅在通用任务和长上下文任务中表现出色，还在链式推理等复杂任务中展现了强大的潜力。

尽管NSA取得了显著的成果，但DeepSeek研究团队也指出了一些可能的改进方向。未来，研究团队计划进一步探索稀疏注意力的理论边界，并将其应用于更多实际场景，如多模态理解和实时生成任务。

月之暗面大动作

与此同时，人工智能初创公司月之暗面也有大动作。2月18日，其宣布推出一款新模型Kimi Latest，它将对标Kimi智能助手当前使用的模型，随智能助手产品更新而同步升级（模型名称始终不变），旨在为开发者和企业用户提供更强大、更稳定的AI生成能力。

据介绍，Kimi-latest模型将始终对标Kimi智能助手当前使用的最新模型，并随产品更新同步升级。这一特性确保了开放平台用户既能体验到最新模型带来的卓越效果，包括尚未稳定的试验性特性，又能保持原有模型的稳定性。kimi-latest模型具备128k的上下文长度，并能根据上下文长度自动选择8k、32k或128k模型作为计费标准。此外，该模型支持图片理解、自动上下文缓存等功能，缓存命中的Tokens费用仅为1/M Tokens，暂不支持手动上下文缓存。

目前，kimi-latest仅支持调用kimi普通版模型，Kimi k1.5长思考模型暂不支持API调用。如有研究和测评需求，需要填写Kimi k1.5申请表单提交测试申请。

Kimi是DeepSeek崛起之前，国内话题度最高的来自创业公司的AI产品。

据公开数据统计，截至目前，月之暗面共完成4轮融资，融资规模超过110亿元。其中，在阿里参与超10亿美元规模的A+轮融资中，有媒体报道称有近2亿美元以算力券形式折算。这意味着，月之暗面的现金规模接近100亿元。

另据界面新闻，月之暗面近期决定大幅收缩产品投放预算，包括暂停多个安卓渠道的投放，以及第三方广告平台的合作。

在DeepSeek席卷全球AI产业链后，这是大模型“六小虎”之中第一家在投放策略上有明显反应的公司。据了解，月之暗面内部对此次调整解释称，公司近期受到“外部因素和内部战略调整影响”。

界面新闻援引知情人士的消息称，DeepSeek的爆火对月之暗面内部而言是一番不小的刺激。团队复盘后认为还是要坚持基础模型SOTA（State-of-the-art，当前最佳）。接下来，团队可能会重新训练基础模型，同时抓紧应用层的机会，内部选中的一个产品方向是DeepResearch，这是OpenAI在2月发布的一款面向深度研究领域的智能体产品。

高盛最新发声

高盛最新研报指出，DeepSeek-R1及中国本土AI模型的突破性进展，正在重塑科技产业叙事逻辑。

该机构测算，AI技术普及有望在未来十年内每年为中国企业提升EPS(每股收益)约2.5%，并通过改善增长预期推动中国股市公允价值提升15%—20%，预计将吸引超2000亿美元(约合人民币1.44万亿元)的跨境资本流入。

2月18日，港股DeepSeek概念股延续强势，截至收盘，出门问问大涨16.67%，创梦天地大涨12.35%、美图公司大涨超10%、快手涨超9%。

消息方面，包括贝莱德、路博迈、施罗德等多家外资机构均认为，随着DeepSeek的技术突破，半导体行业将经历较大的波动，但长期来看，AI计算能力的需求仍会持续增长，推动芯片和硬件市场的发展。

此外，机构也认为，本轮技术突破有望带动更大范围的投资潮，看好AI大发展对新能源、消费电子、智能驾驶和医疗健康等领域的辐射效应。

中信证券在最新研报中指出，“尽管近期中国科网公司已有非常显著的涨幅，拉长历史周期看，我们仍处于AI时代的早期，以及中国科技资产重估的开端。”

中信证券表示，长期看好中国科技乃至更大范围资产的重估和成长空间，尤其是在2018年中美博弈导致估值显著承压之后。未来，每一次大的技术突破和应用落地，都有机会带来系统性的估值提升。

光大证券在研报中表示，目前AI应用正在加速扩散，相关企业的技术和产品不断推陈出新，为资本市场提供了丰富的投资机会。只要产业趋势延续，即便短期的“拥挤”可能会带来分歧与调整，但大概率也会有更多的资金去承接，进而打开“拥挤度”进一步向上的空间。

来源：证券时报网作者：周乐

上一篇：原创偷跑价1104元！2025年买骁龙695新机，是傻还是香？

下一篇：硅谷视角深聊：Deepseek的颠覆、冲击、争议和误解

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

DeepSeek重大发布！NSA媲美甚至超越了全注意力基线模型

相关内容

热门资讯