
上周看到一条新闻,说实话有点被震到。
Cloudflare 发布了最新数据:在他们托管的网站上,AI和自动化程序产生的流量占了57.4%,人类只有42.6%。
这是互联网历史上,机器流量第一次超过人类。
Cloudflare 的 CEO Matthew Prince 自己都说:"好吧,这比我预想的快多了。"他原来估计得到2027年底才到这一步。
到底都是些什么机器人
这些流量不全是恶意爬虫。
具体分几类:
第一类是搜索引擎爬虫。Google、Bing这些,老面孔了。
第二类是AI训练爬虫。OpenAI、Anthropic、Google各类模型都在拼命抓取数据训练下一代模型。这类爬虫数量在过去一年暴涨了好几倍。
第三类是AI Agent。就是那些帮你订机票、比价、自动填表的AI工具产生的流量。这一块增速最猛。
第四类才是恶意攻击。DDoS、撞库、刷评论这些。
前三种加起来占了绝大多数。
Cloudflare 之前就出过一个AI爬虫排行榜,OpenAI的GPTBot排第一,然后是Common Crawl,接着是Amazonbot、Claude-Web等。
人类流量被"稀释"了
说流量被超过,并不代表人类上网的人变少了。
人是没少,但AI生成的内容多了,AI爬虫反复抓取的行为多了,导致总流量盘子急速膨胀。蛋糕做大了,人类切到的那块比例就小了。
Cloudflare 自己也说,这就像一个城市里普通人越来越多,但汽车增长得太快,最后街头看起来全是车。
这事对普通人有啥影响
看起来是行业新闻,但其实跟你我上网的体验直接相关。
最明显的一个变化:网站开始防AI了。
越来越多的站长在 robots.txt 里明确写了禁止AI爬虫抓取。小到个人博客,大到媒体网站。一些内容平台开始加验证码,你浏览得好好的突然弹出来"请确认你不是机器人"——原因就是因为这些防爬机制越来越严,误伤到了正常用户。
另一个影响:网络变慢了。机器人流量挤占了服务器带宽,同样的服务器要处理三五倍的请求量。反应到用户端就是网页加载变慢,视频缓冲更频繁。
还有个隐患是数据污染。AI生成的内容被爬虫抓走训练模型,然后模型又生成更多内容——形成了一种"自我吞噬"的循环。内容质量会怎样,想想就让人担心。
一个可能的方向
Cloudflare 最近宣布推出 AI 治理工具,让网站所有者能精确定义什么样的爬虫能抓取、不能抓取。但这需要全行业配合。
有些大媒体已经开始起诉AI公司了。《纽约时报》告OpenAI就是典型案例。但诉讼解决不了技术层面的问题。
说到底,互联网的本质正在被改变。一个曾经属于人类的空间,现在机器已经成为了主要的"居民"。
这没有简单的对错之分,但每个上网的人都应该知道这件事正在发生。
评论 (0)
暂无评论,来写第一条吧 ✍️