近期,乌克兰的人体3D模型网站Trilegangers遭受了史无前例的流量攻击,导致其服务器无法正常工作。该平台主要为3D艺术家和游戏开发者提供大量人体3D模型数据。然而,由于OpenAI的爬虫GPTBot频繁抓取数据,使得网站陷入了困境。

据Trilegangers工作人员透露,尽管网站在使用协议中明确禁止未经授权的数据抓取,但因为没有正确配置robots.txt文件以阻止爬虫访问,最终导致服务器负担过重。根据服务器日志显示,OpenAI的GPTBot爬虫通过600多个IP地址发起数万次请求,使网站无法正常运行,宛如遭遇了分布式拒绝服务(DDoS)攻击。

image.png

OpenAI在其爬虫说明中提出,若网站不想让GPTBot抓取内容,需在robots.txt文件中进行相应的设置。然而,Trilegangers未能意识到这一点,最终陷入被动。尽管robots.txt文件并非法律强制要求,但若网站已声明禁止未经授权使用,GPTBot的抓取行为可能仍违反相关规定。

另外,由于使用亚马逊AWS服务器,Trilegangers在带宽和流量方面的支出急剧增加,带来了额外的经济负担。为了应对这一突发事件,Trilegangers已采取措施,设置了正确的robots.txt文件,并通过Cloudflare屏蔽了包括GPTBot在内的多种爬虫的访问,预计这将有助减轻服务器负担,保障网站正常运行。

这一事件引起了公众对网络爬虫行为的关注,特别是在AI技术不断发展的今天,如何在技术应用与版权保护之间取得平衡,成为了一个值得深思的问题。