2026年9月15日起Cloudflare将禁止AI代理与训练爬虫访含广告网页
代理与训练爬虫访问含广告的网页。的爬虫管理器会为混合型爬虫匹配其所有行为模式,这意味着多任务爬虫只要一种行为被网页所有者禁止就无法在特定网站上爬取。还将推出页面变动监控以避免无意义的重复抓取,并提供按使用计价的抓取付费模式。
爬虫分类新规让网站所有者重新掌握主动权
7月2日, 互联网基础服务企业宣告, 会从2026年9月15日开始后, 针对爬虫机器人开展精细化标签管理行为。全部爬虫会被划分成搜索、代理、训练等不一样的类别, 当中AI代理与训练爬虫在默认情形下会被禁止去访问带着广告的网页状态。此举意味着网站所有者终于拥有了更明晰的工具用以区分不同爬虫的用途情况, 不再推行统一的屏蔽或者放行举措了。
以往, 众多网站所有者遭遇两难状况, 一方面期望自身内容能够被人工智能发觉, 另一方面害怕被爬虫抓取后被免费利用, 致使广告收益遭受损失。此次出炉的新规直接朝着这个痛点来设计, 使得网站所有者能够依据爬虫的用途去判定是否予以放行, 并非被动地接纳所有爬虫的访问。

混合型爬虫将无法绕过屏蔽规则
当下, 市面上存有大量混合型爬虫, 这些爬虫同时拥有搜索、训练、代理等多种功能, 这类爬虫致使网站所有者难以判定其真切用途, 并且无法精准把控访问权限, 新规之下爬虫管理器会自动为混合型爬虫匹配其全部行为模式, 这表明只要存在一种行为被网站所有者禁止, 那整个爬虫便无法在该网站上抓取数据。
这样的设计将爬虫借助单一功能标签来绕开屏蔽的漏洞给堵住了。对于网站所有者而言, 这属于一个重大利好的情况, 他们不用再一个一个地去排查爬虫特定的行为, 仅是设定好规则后, 系统就能够自动进行执行屏蔽, 大幅度地下降了管理成本。
归因仪表盘帮助适应搜索规则变化
新规会推出新版归因业务洞察仪表板, 这能助力网站所有者去适应搜索优化, 这种优化从SEO变化为GEO, 再到AEO。简而言之, 搜索引擎规则正从关键词匹配转变至答案引擎优化的状态, 用户是直接得到答案, 并非链接列表。网站所有者得清楚自身内容在AI答案里怎样被引用, 以及这些引用会不会带来流量。
此仪表板会给出详尽的数据分析, 告知你何种内容被何种爬虫所访问, 访问的频率怎样, 以及这些访问对于网站收益有着怎样的影响。借助数据, 网站所有者能够对内容策略予以调整, 保证自身的优质内容得以被正确归因, 而非被免费加以使用。
页面变动监控避免重复抓取浪费资源
新规里还讲了会推出页面变动监控功能, 此功能能检测网站页面有无发生变化, 要是页面内容未更新, 爬虫便不会重复抓取, 对于一些内容更新频率低的网站而言, 该功能可大幅削减不必要的服务器负载以及带宽消耗。
过往之时, 诸多爬虫常常会频繁地去访问同一个页面, 哪怕这页面之中的内容一丁点儿都没有发生变化,然而这般重复的抓取行为却白白地耗费了数量巨大的服务器资源。现今出现了变动监控这一情况, 爬虫唯有在页面产生了更新以后才会发起新的一次抓取动作, 如此一来, 既使得效率得到了提升, 并且还为网站所有者节省了成本。
按使用计价的抓取付费模式正式推出
不同于屏蔽与监控, 新规另外会给出依据使用来计算价格的抓取付费方式, 这表示要是企业有想要大量抓取网站内容的需求, 像是用于AI训练或者数据分析这类情况, 那他们就得依据实际的使用量给网站所有者支付费用, 这对内容创作者以及网站所有者而言, 是一项关键的收入渠道。
这种模式, 将长期以来内容价值被免费利用的状况予以解决, 网站所有者能够依据自身内容具备的商业价值来确定价格, 爬虫使用者必须为每一回的数据抓取支付费用, 进而形成良性循环, 对高质量内容不间断的生产起到激励作用。
网站所有者现在就需要检查爬虫设置
2026年9月15日, 这项新规会生效, 此时此刻距离那只有两个多月时长。网站所有者得赶快去检查自身爬虫管理器的设置, 去确认哪些爬虫能够被允许进行访问, 哪些是被禁止的, 尤其是AI代理以及训练爬虫默认的禁止设置是不是契合自身需求。倘若你身为内容创作者或者网站运营者, 你会挑选默认屏蔽AI爬虫, 还是开放给它们以供使用呢? 欢迎于评论区讲出你的做法, 点赞并且分享能让更多同行看到这一重要变化。