国内多数AI模型训练使用的中文数据占比已超60%
创始人
2025-08-22 05:00:29

中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。

人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。(记者高亢)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

葛卫东24亿申购麦格米特定增,... 1月26日,麦格米特发布《向特定对象发行股票发行情况报告书》,公布此次定增募资结果,知名投资人葛卫东...
原创 印... 印度突然宣布不再购买俄罗斯石油,这一决定打破了原本稳定的供应链,导致大量俄罗斯石油被迫漂浮在海上。面...
靠谱的回收稀贵金属回收品牌实力... 导语:回收稀贵金属回收是现代制造业资源循环体系中的关键环节,其技术能力与服务质量直接影响企业的环保合...
狂飙1034.71%,国产半导... 文 | 半导体产业纵横 2026年初,半导体行业迎来了一场"业绩大考"。随着超过50家上市公司密集...
6120万“租户”撑起一个IP... 瑞财经 王敏 1月26日,港交所文件显示,人人租母公司广州研趣信息科技股份有限公司(以下简称“研趣信...
真金白银显担当!佑驾创新累计斥... 来源:格隆汇APP 2026年1月26日晚间,佑驾创新(2431.HK)发布公告,公司根据2025年...
对话轻舟智航CEO于骞:202... 每经记者:刘曦 每经编辑:余婷婷 “2026年是无人驾驶黄金十年的开启之年。”日前,轻舟智航(QCr...
原创 中... 最近,特朗普再次扬起关税的大棒,宣布要对法国的葡萄酒和香槟征收200%的关税。这一举动引发了广泛关注...
中国商业航天第一展全景展现商业... 2026年1月23日,北京经济技术开发区,一场标志着中国商业航天新高度的盛会正式拉开帷幕。被誉为“中...
我国首个星际航行学院成立!落户... 1月27日上午,中国科学院大学 星际航行学院揭牌仪式在中国科学院与“两弹一星”纪念馆举行,标志该学院...