腾讯混元AI Infra核心技术开源,推理吞吐提升30%
创始人
2026-02-04 20:41:32

IT之家 2 月 4 日消息,腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops

该算子库宣称基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。

▲ HPC-Ops 算子库架构图

在真实场景下,基于 HPC-Ops,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。同时,在单算子性能方面,HPC-Ops 实现 Attention 相比 FlashInfer / FlashAttention 最高提升 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。

在未来的发展规划中,HPC-Ops 将持续深耕大模型推理性能的突破方向:

  • 一方面,将重点研发稀疏 Attention 算子,针对性解决长上下文大模型的内存与算力瓶颈;
  • 另一方面,会拓展更丰富的量化策略,覆盖 4bit/8bit 混合精度等更多量化方案,进一步平衡推理速度与模型精度;
  • 此外,算子库还将布局计算-通信协同优化的内核,通过融合多 GPU 间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑。

IT之家附 HPC-Ops 开源地址如下:

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

佳能R7 Mark II半画幅... IT之家 2 月 4 日消息,科技媒体 thenewcamera 昨日(2 月 3 日)发布博文,报...
科学与梦想交织,天文课搬进寒托... 来源:滚动播报 (来源:上观新闻) 当“M78星云”从上海工程技术大学范绪亮副教授口中说出的时候...
产业科技前沿 | 全球最大“电... 2月1日,全球最大、国内首制万吨级纯电动智能海船——由江西江新造船有限公司制造的740TEU纯电动敞...
多只能源、黄金相关ETF涨逾4... 上证报中国证券网讯(记者 王彭)2月4日,逾六成ETF上涨,其中,煤炭ETF上涨9.07%;能源ET...
纳指低开,AMD大跌13%,中... 记者|杜宇 编辑|程鹏杜恒峰校对|陈柯名 2月4日,美股三大指数开盘涨跌不一,纳指跌0.87%,道指...
金埔园林:股东珠海铧创计划减持... 每经AI快讯,金埔园林2月4日晚间发布公告称,持有金埔园林股份有限公司股份约517万股,占公司总股本...
国投瑞银急招法务,白银LOF给... 原创:大财可富司机 公募基金史上最惨烈的单日暴跌,猝不及防砸向了国投瑞银白银期货(LOF)的持有人!...
印奇挂帅一周抛“端侧王牌” 阶... 官宣印奇出任董事长仅一周,阶跃星辰再次抛出重磅“炸药”。 2月2日,有着“AI(人工智能)六小虎”之...
2026中国六大软件外包公司深... 大家好,我是老纪。 在程序员的职业字典里,每次提到“外包”这两个字,似乎往往带着一种复杂的况味,不知...
盘前:纳指期货跌0.2% 黄金... 来源:环球市场播报 周三软件股的深度抛售进入第二天,全球股市下跌之际,资金加速轮动至对经济更敏感的...