⚡KVCache查找每个客户端节点的峰值吞吐量为40+ GiB/s
🧬具有强一致性语义的分解架构
✅在V3/R1中训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和KVCache查找以进行推理
📥3FS→ github.com/deepseek-ai/3FS
⛲Smallpond– 基于3FS的数据处理框架 → github.com/deepseek-ai/smallpond
评论区涌入一片夸声,称赞3FS速度快得惊人,为AI数据处理树立了新标杆——极快的速度和无缝集成。
也有网友继续催更:接下来我们需要视频模型、V4、R2,全世界都在等!
还有人看热闹不嫌事大,在评论区晒出今天OpenAI新发布的GPT-4.5与DeepSeek最新淡季折扣价对比图。
根据GitHub项目公开信息,今日新开源的3FS和Smallpond具体信息如下:
1、Fire-Flyer文件系统
Fire-Flyer文件系统(3FS)是一种高性能分布式文件系统,旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络来提供共享存储层,从而简化分布式应用程序的开发。
3FS的主要功能和优势包括:
(1)性能和可用性
(2)多样化的工作负载
其表现如下:
(1)峰值吞吐量
下图展示了一个大型3FS集群的读压测吞吐情况。该集群由180个存储节点组成,每个存储节点配备2×200Gbps InfiniBand网卡和16个14 TiB NVMe SSD。大约500+个客户端节点用于读压测,每个客户端节点配置1x200Gbps InfiniBand网卡。在训练作业的背景流量下,最终聚合读吞吐量达到约6.6 TiB/s。
(2)灰度排序
DeepSeek利用GraySort基准对smallpond进行了评估,该基准可衡量大规模数据集的排序性能。其实现采用两阶段方法:(1) 使用键的前缀位通过shuffle对数据进行分区,以及 (2) 分区内排序。两个阶段都从3FS读取数据/向3FS写入数据。
测试集群由25个存储节点(2个NUMA域/节点、1个存储服务/NUMA、2×400Gbps NIC/节点)和50个计算节点(2个NUMA域、192个物理核心、2.2 TiB RAM和1×200 Gbps NIC/节点)组成。对8192个分区中的110.5 TiB数据进行排序耗时30分14秒,平均吞吐量为3.66 TiB/分钟。
(3)KVCache
KVCache是一种用于优化大语言模型推理过程的技术。它通过在解码器层中缓存先前标记的键和值向量来避免冗余计算。上方的图展示了所有KVCache客户端的读取吞吐量,突出显示了峰值和平均值,峰值吞吐量高达40 GiB/s。下图显示了同一时间段内垃圾回收(GC)中删除操作的IOPS。
开发:
2、Smallpond
Smallpond是一个基于DuckDB和3FS的一个轻量级数据处理框架,特色包括:
🚀 由DuckDB提供支持的高性能数据处理
🌍 可扩展以处理PB级数据集
🛠 操作简单,无需长时间运行服务
开发: