“禁止收集AI训练数据”……路透社、纽约时报屏蔽ChatGPT访问

by Kwon Haeyoung

Published 28 Aug.2023 05:53(KST)

Updated 28 Aug.2023 08:55(KST)

open/close

版权争议扩散…限制未经授权使用内容

路透社、《纽约时报》、CNN电视台等，阻止生成式人工智能（AI）ChatGPT抓取信息的网站正在不断增多。

据人工智能内容信息公司Originality.AI于本月27日（当地时间）公布的数据，截至本月22日，在全球最受欢迎的前1000个网站中，阻止ChatGPT网页爬虫访问的网站占比为9.2%。网页爬虫是自动在各个网站间游走并收集数据的程序。

OpenAI本月7日公开了自家网页爬虫GPTBot，同时向不希望其信息被收集和利用的网站所有者提供了阻止GPTBot抓取数据的具体方法。

GPTBot的封禁率在公开后的第一周（本月15日）还不到5%，到第二周已升至10%。如果将范围缩小到用户数量等指标较高的前100个主要网站，封禁率则达到15%。在封禁GPTBot的网站中，大量媒体机构在列，包括路透社、《纽约时报》、CNN电视台等。在围绕生成式人工智能的版权争议不断扩散的背景下，这被视为为了阻止ChatGPT在未经事先同意的情况下擅自使用内容而采取的措施。