DeepSeek开源AI数据处理神器：6.6TiB/s惊人吞吐！还能扩展至PB级数据_资讯

DeepSeek开源AI数据处理神器：6.6TiB/s惊人吞吐！还能扩展至PB级数据

创始人

2025-02-28 21:21:17

⚡KVCache查找每个客户端节点的峰值吞吐量为40+ GiB/s

🧬具有强一致性语义的分解架构

✅在V3/R1中训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和KVCache查找以进行推理

📥3FS→ github.com/deepseek-ai/3FS

⛲Smallpond– 基于3FS的数据处理框架 → github.com/deepseek-ai/smallpond

评论区涌入一片夸声，称赞3FS速度快得惊人，为AI数据处理树立了新标杆——极快的速度和无缝集成。

也有网友继续催更：接下来我们需要视频模型、V4、R2，全世界都在等！

还有人看热闹不嫌事大，在评论区晒出今天OpenAI新发布的GPT-4.5与DeepSeek最新淡季折扣价对比图。

根据GitHub项目公开信息，今日新开源的3FS和Smallpond具体信息如下：

1、Fire-Flyer文件系统

Fire-Flyer文件系统（3FS）是一种高性能分布式文件系统，旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络来提供共享存储层，从而简化分布式应用程序的开发。

3FS的主要功能和优势包括：

（1）性能和可用性

分解式架构结合了数千个SSD的吞吐量和数百个存储节点的网络带宽，使应用程序能够以不受位置影响的方式访问存储资源。
强一致性实现带有分配查询（CRAQ）的链式复制以实现强一致性，从而使应用程序代码简单且易于推理。
文件接口开发由事务键值存储（例如FoundationDB）支持的无状态元数据服务。文件接口众所周知且随处可用。无需学习新的存储API。

（2）多样化的工作负载

数据准备将数据分析管道的输出组织成分层目录结构，并有效地管理大量中间输出。
数据加载器通过跨计算节点随机访问训练样本，消除了预取或混洗数据集的需要。
检查点支持大规模训练的高吞吐量并行检查点。
用于推理的KVCache提供了一种基于DRAM的缓存的经济高效的替代方案，可提供高吞吐量和更大的容量。

其表现如下：

（1）峰值吞吐量

下图展示了一个大型3FS集群的读压测吞吐情况。该集群由180个存储节点组成，每个存储节点配备2×200Gbps InfiniBand网卡和16个14 TiB NVMe SSD。大约500+个客户端节点用于读压测，每个客户端节点配置1x200Gbps InfiniBand网卡。在训练作业的背景流量下，最终聚合读吞吐量达到约6.6 TiB/s。

（2）灰度排序

DeepSeek利用GraySort基准对smallpond进行了评估，该基准可衡量大规模数据集的排序性能。其实现采用两阶段方法：(1) 使用键的前缀位通过shuffle对数据进行分区，以及 (2) 分区内排序。两个阶段都从3FS读取数据/向3FS写入数据。

测试集群由25个存储节点（2个NUMA域/节点、1个存储服务/NUMA、2×400Gbps NIC/节点）和50个计算节点（2个NUMA域、192个物理核心、2.2 TiB RAM和1×200 Gbps NIC/节点）组成。对8192个分区中的110.5 TiB数据进行排序耗时30分14秒，平均吞吐量为3.66 TiB/分钟。

（3）KVCache

KVCache是一种用于优化大语言模型推理过程的技术。它通过在解码器层中缓存先前标记的键和值向量来避免冗余计算。上方的图展示了所有KVCache客户端的读取吞吐量，突出显示了峰值和平均值，峰值吞吐量高达40 GiB/s。下图显示了同一时间段内垃圾回收（GC）中删除操作的IOPS。

开发：

2、Smallpond

Smallpond是一个基于DuckDB和3FS的一个轻量级数据处理框架，特色包括：

🚀 由DuckDB提供支持的高性能数据处理

🌍 可扩展以处理PB级数据集

🛠 操作简单，无需长时间运行服务

开发：

上一篇：专访全国政协委员齐向东：AI创新“草根化”明显，政府作为坚实后盾要激发创业热情

下一篇：70个大中城市中新建商品住宅销售价格环比上涨城市增至24个，专家：可关注这两类城市……

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

DeepSeek开源AI数据处理神器：6.6TiB/s惊人吞吐！还能扩展至PB级数据

相关内容

热门资讯