中国(九游会)官方网站

J9官网若是你不念念让 GPTBot 观察你网站的任何内容-中国(九游会)官方网站

新闻资讯

你的位置:中国(九游会)官方网站 > 新闻资讯 > J9官网若是你不念念让 GPTBot 观察你网站的任何内容-中国(九游会)官方网站


J9官网若是你不念念让 GPTBot 观察你网站的任何内容-中国(九游会)官方网站

发布日期:2025-03-03 06:08    点击次数:119

J9官网若是你不念念让 GPTBot 观察你网站的任何内容-中国(九游会)官方网站

J9官网

整理 | 屠敏

几天前,乌克兰一家专注于东谈主体 3D 模子的网站 Trilegangers 一忽儿崩了,这让通盘团队以及雇主皆有些措手不足。起初,该公司 CEO Oleksandr Tomchuk 只是收到一则警报,进而发现公司的电子商务网站已悉数瘫痪了。

如故排查,殊不知,该团队发现,罪魁罪魁居然是——OpenAI 此前研发的一款机器东谈主 GPTbot。

7 东谈主花了十余年本领构建的网站,差少许毁于一朝

据悉,Trilegangers 是一个销售 3D 扫描数据的网站,这家领有七名职工的公司花了十多年本领,成立了所谓的集合上最大的“东谈主体数字替身”数据库,即从真正东谈主体模子扫描而来的 3D 图像文献。

Triplegangers 提供从手、头发、皮肤到竣工躯壳模子的 3D 对象文献和相片,一应俱全。其处理的数据涵盖多个类别,如“脸部”、“全身”、“带姿势的全身”、“全身情侣”、“手部”、“手部雕像”等,网站展示的内容恰是其业务中枢所在。

具体来看,以“脸部”数据为例,这一类别中有 1509 东谈主的数据,每个东谈主注册了大致 20 种不同的面部心思。在其他类别中,每个家具至少有三张图像,因此总额据听说罕有十万个点。

这少许也赢得 CEO Oleksandr Tomchuk 的阐述,其暗示,“咱们有越过 65000 种家具,每种家具皆有一页内容先容,每页至少有三张相片。”

Trilegangers 所作念的业务便是面向 3D 艺术家、视频游戏开发者,以及任何需要数字化再现真正东谈主类特征的东谈主群销售这些数据。

关联词,Oleksandr Tomchuk 称,不久前 OpenAI GPTBot 发送了“数万”个作事器央求,试图下载沿路内容,数十万张相片过火宝贵描摹。

这有一种,凡是 Trilegangers 有的,OpenAI 皆要的嗅觉,但是这些内容实则为付费家具。“OpenAI 使用 600 个 IP 来持取数据,咱们仍在分析上周的日记,也许更多,”该团队在谈到机器东谈主试图观察其网站的 IP 地址时说谈。

“他们的爬虫法子正在恣虐咱们的网站!”Oleksandr Tomchuk 说,“这基本上是一次 DDoS 膺惩。”

那么 GPTbot 究竟是什么?

不难回忆起来,GPTbot 是 OpenAI 在 2023 年 8 月推出的一款集合爬虫机器东谈主,用于持取互联网数据,为侦查和改良大模子(如 ChatGPT)提供素材。

它会自动观察公开可用的网站,网罗文本数据来增强模子智商。

OpenAI 此前暗示,GPTBot 会严格盲从任何付费墙的司法,不会持取需要付费的信息,而况也不会网罗能跟踪到个东谈主身份的数据。即服从网站的 robots.txt 文献中明确标示的司法。若是网站竖立了退却 GPTBot 持取的标签,它表面上会住手观察该网站。

而 robots.txt 是一个用于网站治理的文本文献,它告诉搜索引擎爬虫(如 Googlebot、Bingbot 或 GPTBot)哪些网页不错或不不错被持取。这是一种被庸俗继承的集合门径,称为机器东谈主摒除左券(Robots Exclusion Protocol, REP)。

约略来看,若是你不念念让 GPTBot 观察你网站的任何内容,不错将以下代码添加到目次中 robots.txt 内部:

User-Agent: GPTBotDisallow: /

若是你念念要允许观察网站上的某些内容(举例特定目次或文献),不错用以下代码对 robots.txt 进行以下鼎新:

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

除此以外,OpenAI 还公布了 OpenAI 使用的爬虫 IP 地址,也不错凭证 IP 地址来圮绝观察。

OpenAI 公开了以上这些风物,并宣称会盲从司法,显得赤忱满满。

关联词,令东谈主无奈的是,一切的前提是得正确竖立好“robots.txt”文献,才不错尽可能地幸免被爬虫。

这一次 Trilegangers 就落到了“robots.txt”的坑中。诚然其在官网“使用条目”的第 5 条行动准则中清领会爽地写着:

未经 TG 明确预先书面同意,不得使用任何机器东谈主、爬虫、网站搜索/检索应用法子或其他手动或自动斥地来检索、索引、持取、挖掘数据或以其他风物网陷坑站内容,也不得复制或绕过网站的导航结构或展示风物。尽管有上述胁制,在盲从咱们网站根目次中 robots.txt 文献中发布的任何率领的前提下,TG 授予环球搜索引擎的运营者权限,允许其使用爬虫从咱们的网站复制材料,但仅限于为创建这些材料的公开可用、可搜索索引的独一指标(且仅限必要边界内),不得缓存或归档这些材料。TG 保留随时和不经奉告取销此权限的职权,岂论是一般性取销照旧针对特定情况。

未经 TG 许可,退却实施以下行动:

1. 将本网站上展示的任何内情愿图像用于东谈主工智能或机器学习(“AI/ML”)量度或量度;

2. 索取、复制、分发或向任何第三方提供本网站展示的任何内情愿图像,用于 AI/ML 算法的侦查、测试或开发;

3. 参与任何波及期骗本网站内情愿图像的AI/ML关系行动,包括但不限于数据集编制、模式识别、神经集合侦查或任何面貌的蓄意分析。

任何试图在未经 TG 有用许可的情况下将本网站内情愿图像用于 AI/ML 指地点行动,均被视为违抗本网站条目及咱们的供应条目与条件,可能导致法律诉讼,并寻求适用法律下的一切拯救措施。

但如今看来,仅凭这少许的声明毫无作用,GPTBot 照旧爬取到了其网站的内容,还让网站通盘宕机了。

对此,据 Techcrunch 报谈,这次 Trilegangers 并莫得正确使用 robot.txt,其中的标签莫得明确告诉 OpenAI 的机器东谈主 GPTBot 不要爬取该网站内容。这就意味着 OpenAI 和其他公司就会认为他们不错予求予取地持取数据。

更令东谈主敌视的是,即使 Trilegangers 告诉了 GPTBot 不要持取自家网站的内容,谁能意料,OpenAI 还有 ChatGPT-User 和 OAI-SearchBot 机器东谈主用来作念爬虫器用。

还值得遏止的是,即使更新了网站的 robots.txt ,也不要掉以轻心,因为 OpenAI 的系统可能需要大致 24 小时能力能力识别更新的 robot.txt 文献。

https://platform.openai.com/docs/bots

正所谓爬虫的器用千千万,企业随机根底防不堪防。

“若是爬取的数据少少许,大约皆发现不了”

就像这一次,若是不是 OpenAI 的 GPTBot 爬取的数据过于庞大,也许 Trilegangers 可能还发现不了。Tomchuk 在继承外媒 Techcrunch 采访时暗示,「若是爬虫愈加“平和”地持取,他可能永久皆不会发现。」

“这令东谈主渺小,因为这些公司似乎钻了一个过失,宣称‘你不错通过更新带有咱们标签的 robots.txt 文献遴聘退出持取’,”Tomchuk 说,但这骨子上把包袱推给了网站悉数者,让他们必须了解怎样屏蔽这些爬虫。

更可怕的是,Tomchuk 称他们连 GPTBot 究竟是从何时驱动持取的皆不知谈,更不要说 OpenAI 具体持取了哪些内容。

这也让 Tomchuk 有些记忆,“咱们的业务对职权要求超过严格,因为咱们扫描的是骨子的东谈主体,按照欧洲的 GDPR 等法律,他们不可随意拿集合上的任何相片使用。”

事件发生后,Triplegangers 的网站不仅因 OpenAI 的爬虫被动下线,CEO Tomchuk 还瞻望将收到一份因爬虫导致的高 CPU 破费和大皆下载行动而产生的高额 AWS 账单。

同期,Tomchuk 称他也没找到不错关系 OpenAI 的方法,也无法让他们删除这些素材。为此,Tomchuk 无奈之下遴遴聘 Trilegangers 官方 Twitter 账号发了一条致 OpenAl、Microsoft、Meta、Google 和其他使用爬虫法子的公司的官方声明:

除用于搜索指地点页面索引外,严禁在咱们的网站上使用爬虫法子。未经有用许可,产禁将咱们网站上的任何公开内容用于 AI 或 ML 应用法子。

胁制咫尺,Triplegangers 竖立好了正确的 robots.txt 文献,并创建了一个 Cloudflare 账户,用于封闭 GPTBot 以及他发现的其他爬虫,举例 Barkrowler(一个 SEO 爬虫)和 Bytespider(TikTok 的爬虫)。

激发争议的数据爬取

Triplegangers 的经验激发了庸俗温顺,其公开此过后,不少其他网站运营者纷繁暗示曾经碰到相似情况。

@markerz:

我的其中一个网站曾被 Meta 的 AI 爬虫 Meta-ExternalAgent 悉数恣虐。这个爬虫似乎有些“纯真”,莫得像 Google Bot 那样进行性能回退(performance back-off)。它不停地叠加央求内容,直到我的作事器崩溃,然后顷刻住手一分钟,再次发起更多央求。

我的处理方法是添加了一条 Cloudflare 司法,获胜屏蔽该 User-Agent 的央求。我还为承接增多了更多 nofollow 司法,并更新了 robots.txt 文献,但这些司法只是是忽视,某些爬虫似乎会忽略它们。Cloudflare 还有一个功能不错屏蔽已知的 AI 爬虫,甚而怀疑是 AI 爬虫的央求:https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。尽管我不可爱 Cloudflare 的围聚化,但这个功能照实超过浅易。

griomnib:

我从事网站开发已经数十年,同期也从事过爬取、索引和分析数百万个网站的职责。只需服从一个黄金司法:永久不要以比你但愿别东谈主对待你的网站更激进的风物加载其他网站。

这并不难作念到,但这些 AI 公司使用的爬虫既低效又令东谈主厌恶。

算作一个网站悉数者,这种行动让我以为他们对集合的基本礼节毫无尊重。而算作别称从事漫步式数据采集的工程师,我更是被这些爬虫的恶运和低效深深冒犯了。

至此,Tomchuk 也共享了他念念把这如故验公开的原因,他但愿其他微型在线企业了解,发现 AI 爬虫是否在持取网站的版权内容的独一方法便是主动检查日记。他并不是独逐一个受爬虫“侵害”的东谈主,也绝非临了一个。

Tomchuk 劝诫谈:“大多数网站甚而不知谈我方被这些爬虫持取了。当今咱们不得不每天监控日记行动,以发现这些爬虫。”

源流:

https://gigazine.net/gsc_news/en/20250111-openai-bot-crushed-e-commerce-site/

https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/

https://x.com/triplegangers/status/1877095361002852750

https://news.ycombinator.com/item?id=42660377J9官网