技术奇迹!清华突破大模型算力难题 RTX 4090单枪匹马就能跑满血版DeepSeek
创始人
2025-02-15 19:21:17

快科技2月15日消息,清华团队突破大模型算力难题,这让英伟达情何以堪。

据国内媒体报道称,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。

此次KTransformers项目更新带来重大突破,支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。

KTransformers项目的核心在于异构计算策略:稀疏性利用:MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,结合高速算子处理,显存占用压缩至24GB。

量化与算子优化:采用4bit量化技术,配合Marlin GPU算子,效率提升3.87倍;CPU端通过llamafile实现多线程并行,预处理速度高达286 tokens/s。

CUDA Graph加速:减少CPU/GPU通信开销,单次解码仅需一次完整的CUDA Graph调用,生成速度达14 tokens/s。

这带来了怎样的后果呢?传统方案:8卡A100服务器成本超百万,按需计费每小时数千元。

现在,单卡RTX 4090方案:整机成本约2万元,功耗80W,适合中小团队与个人开发者。

NVIDIA RTX 4090运行DeepSeek-R1满血版的案例,不仅是技术奇迹,更是开源精神与硬件潜能结合的典范。它证明:在AI狂飙的时代,创新往往源于对“不可能”的挑战。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

2月19日美股盘前要闻 钛媒体App 2月19日消息,2月19日美股盘前要闻: 1.截至目前,道琼斯指数期货跌0.25%,标...
英国失业率升至近5年最高位 新华社伦敦2月17日电(记者赵小娜)英国国家统计局17日发布的报告显示,由于经济增长乏力,2025年...
天翼云申请视频码率调整方法专利... 国家知识产权局信息显示,天翼云科技有限公司申请一项名为“视频码率调整方法、装置、计算机设备、存储介质...
正月初三闲步春市 山东打造“购... 睡到自然醒,约上三五好友逛商圈、喝咖啡、看场电影,再去步行街淘几件春装……正月初三,岁序更新,春节假...
中国卖家大撤退,这个头部平台红... 作者丨无心 编辑丨Shadow 跨境电商平台eBay孕育了大批顶级卖家,但其头部格局高度本土化,数据...
字节跳动在美国组建人工智能团队... 2月19日消息,据彭博社周四报道,TikTok 母公司字节跳动 ( BDNCE ) 正在美国组建人工...
宝尊电商业绩改善但股价低迷,转... 来源:经济观察网 经济观察网 宝尊电商2025年第三季度财报显示转型成效,总净收入同比增长5%至22...
黄仁勋预告:“前所未见” 当地时间2月18日,英伟达CEO黄仁勋在接受媒体采访时,对即将到来的GTC 2026大会进行预热,他...
我国科学家打造出安全、抗冻、耐... 天津大学许运华教授团队联合华南理工大学黄飞教授团队等单位,成功研制出一种新型有机正极材料,突破了传统...
关于社会消费品零售总额,这些你... 2025年,我国社会消费品零售总额首次突破50万亿元,最终消费支出对经济增长的贡献率达52.0%。什...