AI训练数据治理的“术”与“道”
创始人
2026-03-29 04:31:32

人工智能正以前所未有的速度重塑人类社会的生产生活方式。数据显示,2025年我国人工智能企业数量已超过6000家,核心产业规模预计突破1.2万亿元。人工智能正加速融入千行百业,成为培育新质生产力的重要引擎。

然而,在人工智能产业高歌猛进的同时,一个根本性的安全问题不容忽视: 驱动人工智能发展的海量训练数据,是否合法安全?人工智能的“源头”若受污染,下游应用必将面临极大的风险。正因如此,人工智能训练数据的治理问题引发了广泛关注。

今年全国两会期间,许多代表建议,要加强数据语料源头治理。这传递出明确的信号: 人工智能训练数据治理已刻不容缓,要推动人工智能健康发展,必须净化数据源头,筑牢安全底座。

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。新华社发

数据之“患”:

“先使用后治理”的风险

当下,海量数据是训练人工智能模型的重要基础。因此,人工智能企业把训练数据视为“多多益善”的资源,努力获取海量数据并快速用于训练。但问题在于,一些企业往往按照“先使用后治理”思路来获取和使用训练数据,忽视了其中潜在的合法性和安全性风险。

首先是合法性风险。海量训练数据来源往往非常复杂,其中可能还包含个人信息、作品、数据集合等承载他人权益的数据,如果企业未经相关权益人许可就使用这些数据,将面临着因违法而被事后追责的风险。早在2024年,北京互联网法院就受理了全国首例人工智能训练数据侵害著作权案。

其次是安全性风险。训练数据中如果包含虚假失实、低俗暴力、歧视侮辱等违法不良信息,经过训练的人工智能模型就有可能记住这些信息,进而引发输出违法不良信息的安全风险。

治理之“术”:

从事后治理到来源和过程管理

面对人工智能训练数据相关的合法性和安全性风险,企业不能沿着“先使用后治理”的老路走下去。这些风险很容易沿着“开发—部署—应用”的链条层层传导,等到出现问题再事后解决,不仅治理成本更高,也难以彻底消除影响。 对企业而言,真正有效的做法,是把风险管理前移,从事后补救转向来源和过程管理。

首先,企业要盯紧数据获取的源头关。训练数据从哪里来、是否涉及他人权益、是否经过授权,都应当在数据收集时进行确认和记录。 对来源不清、授权不明、风险较高的数据,不宜抱着“先用起来再说”的心态,而应当在使用上更加审慎。

只有厘清训练数据的来源,企业才能有效地确保训练数据的合法性,并且在需要事后补救的情形下也能有效地开展溯源工作。

2025年6月18日,广西柳州市北部生态新区机器人产业园中的人形机器人。图源:人民图片

其次,企业要把好数据使用的过程关。训练数据清洗是影响模型安全的重要环节。如果训练数据清洗工作不到位,虚假失实、低俗暴力、歧视侮辱等违法不良信息就可能被带入训练过程,进而影响模型输出。

因此 企业应当建立合理的清洗标准和审核机制,保障训练数据不被违法不良信息污染。此外, 企业还要建立全周期、全流程的数据使用管理机制,明确数据的使用目的、方式和范围,确保训练数据的安全性。

平衡之“道”:

在安全与发展间寻找法治支点

加强人工智能训练数据治理,不能仅依赖企业的自律自治,还需要依托法治的监督规范。 法治的介入,并不是要给人工智能发展踩刹车,而是要为其校准方向。这里的关键在于把握好安全与发展的关系,在两者之间寻找合适的支点,既让数据安全有保障,也让产业发展有空间。

一方面,要通过细化立法和压实执法来保障训练数据合法安全。当前,我国在数据安全、个人信息保护、知识产权等领域已形成较为完整的立法体系,关键是要结合人工智能训练数据的特点,进一步细化相关主体的法定义务和责任。同时,要压实执法力度,对非法获取、违规使用训练数据以及由此引发安全风险的行为依法查处,提高违法成本,形成有效震慑。

北京人形机器人创新中心前瞻布局专业化的数据采集基地 资料图。图源:北京发布

另一方面,也要加强数据基础制度规则建设,助力人工智能产业健康发展。法治对人工智能产业的促进作用,主要体现在通过明确数据利用的边界,为产业提供清晰的规则和稳定的预期。结合“十五五”规划要求,应当“建立健全数据产权、流通利用、收益分配、安全治理等数据要素基础制度”,“建立人工智能训练数据合理使用制度”,从而让企业清楚哪些数据能用、如何使用、责任边界在哪里,才能真正引导人工智能产业有序发展。

说到底,人工智能竞争比拼的不只是技术和商业方面的成功,还有安全和治理方面的能力。只有把训练数据这一“源头”治好,我国的人工智能技术和产业才能走得更快、更远、更好。

作者:李铭轩 中国人民大学交叉科学研究院讲师、国家治理大数据和人工智能创新平台研究员

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

理邦仪器获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示理邦仪器(300206)新获得一项实用新型专利授权,专利名为“...
原创 突... 原本计划在2024年11月实施的阿尔忒弥斯2号载人绕月飞行任务,由于种种原因推迟到了今年2月,后来又...
飞猪、千问再与30余家旅行品牌... 来源:市场资讯 (来源:网易智能) 4月2日消息,飞猪与千问今日宣布再与30多家旅行品牌达成AI合作...
Space X上市,马斯克“踢... 来源:略大参考 有人说,投行看似高大上,但其本质就是中介,是给股票找到买家。而对马斯克这样有强大市...
原创 摊... 2025年世界互联网大会乌镇峰会上,一份报告悄然发布,没搞发布会,也没热搜轰炸,但懂行的人一看数据,...
2025年Q4中国PC市场:联... 2026-04-02 10:40:39 作者:狼叫兽 2026年4月2日,Omdia最新发布的2...
今麦郎:不再使用“手打”商标 针对今麦郎“手打挂面”争议,4月1日,今麦郎集团创始人、董事长范现国发布视频称,“手打”商标是200...
原创 苏... 人类曾经做过许多看似疯狂的事情,而通过不懈的努力,我们竟然成功地实现了其中不少。虽然如此,依然有许多...
小米新机入网,涨价已成定局? 根据中国质量认证中心的最新信息,一款型号为2604FRK1EC的手机入网,可以确定的是,该机型正是R...
CBCX:AI驱动美国核能建设... 来源:市场资讯 4月2日,CBCX表示,微软与英伟达正在联合推出一套AI驱动的核能开发工具包,旨在显...