研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫
动点科技
2024-02-28 19:27:24

原标题:研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫

一项由路透社研究所进行的研究表明,截至 2023 年底,全球 10 个国家的热门新闻网站中,近一半(48%)屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一(24%)屏蔽了 Google 的 AI 爬虫。

该研究所分析了包括纽约时报、BuzzFeed 新闻、华尔街日报、华盛顿邮报、CNN 和 NPR 在内的 15 家覆盖面最广的网络新闻来源的 robots.txt 文件。这些新闻机构来自德国、印度、西班牙、英国和美国等国家,涵盖传统印刷媒体、电视广播公司和数字原生媒体三种类型。

研究发现,截至 2023 年底,超过一半(57%)的传统印刷媒体网站,例如纽约时报,屏蔽了 OpenAI 的爬虫,相比之下,电视和广播公司为 48%,数字原生媒体为 31%。同样,32% 的印刷媒体网站屏蔽了 Google 的爬虫,而广播公司和数字原生媒体的比例分别为 19% 和 17%。

与此同时,康奈尔大学最近的一项研究发现,当新型人工智能模型仅使用先前模型而非人类输入的数据进行训练时,它们往往会陷入“模型崩溃”或退化,导致生成内容出现更多错误和误导信息。

网站爬虫被用于多种目的。例如,Google 的 Googlebot 会抓取发布商网站,将其收录到搜索结果中。而 OpenAI 的爬虫 GPTBot 则会在互联网上收集数据,用于训练其大型语言模型,例如 ChatGPT。这使人工智能工具能够生成准确、实时的内容,而新闻发布商尤其擅长提供此类内容:大型语言模型对优质出版商内容的重视程度是其他来源内容的 5 到 100 倍。

该研究还指出,北半球国家的新闻机构比南半球国家更倾向于屏蔽人工智能爬虫。例如,在美国,79% 的热门在线新闻网站屏蔽了 OpenAI,而在墨西哥和波兰,这一比例仅为 20%。与此同时,德国 60% 的新闻网站屏蔽了 Google 的爬虫,而在波兰和西班牙,这一比例仅为 7%。

研究发现,几乎所有屏蔽 Google 爬虫的网站也屏蔽了 OpenAI(97%)。虽然该研究没有提供确切解释,但这可能表明 OpenAI 比 Google 更早发布爬虫有关。

值得注意的是,在大多数国家,一些发布商在爬虫刚发布时就立即屏蔽了它们。OpenAI 于去年 8 月初启动了其人工智能爬虫,Google 随后于 9 月份效仿。研究还表明,一旦做出屏蔽决定后,没有一家网站撤销对 OpenAI 或 Google 人工智能爬虫的屏蔽。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

微银订购app被骗了严重亏损了... 微银订购app被骗了严重亏损了怎么办?有解决办法亏钱了还是追回钱的!成功维权退款流程!天鹅订购APP...
掌上生财APP被骗了严重亏损了... 掌上生财APP被骗了严重亏损了怎么办?不用急啊亏钱了能追回是真的!2025年正规维权流程!掌上生财a...
蜻蜓订购app被骗了亏钱了钱怎... 蜻蜓订购app被骗了亏钱了钱怎么办?方法多的很亏损了很多钱有人成功要回了!2025年正规维权流程!蜻...
争辩“AI失业论”:全球8亿岗... 本文来源:时代周报 作者:何珊珊 AI深刻改变世界,但也正引发新的争议。 近日,橡树资本管理联合创始...
马斯克、黄仁勋、李飞飞在列,《... 美东时间12月11日,《时代》周刊公布了2025“年度人物”:正在构建、设计和塑造人工智能,以及传播...
掌上订购白银APP贵金属投资输... 掌上订购白银APP贵金属投资输了钱怎么办?不用急啊亏的钱是可以要回来钱!不成功不收费退款流程!市场上...
邮储银行信用卡中心被罚300万... 【大河财立方消息】12月11日,国家金融监督管理总局北京监管局披露的行政处罚信息显示,因违规开展商品...
原创 德... 谁能想到,一笔高达2100亿欧元的“救命钱”就摆在眼前,乌克兰却连一分都拿不到? 2025年12月初...
原创 喜... 前两天在一个朋友聚会上,有个朋友说起自己前段时间在银行办了个3年期的定期存款,一口气存了20万块。旁...