建议收藏,这份 robots.txt 可以屏蔽垃圾蜘蛛流量_数据

曾经有段时间,我的网站每天都在消耗巨大的流量,然而一查日志,发现都是一些垃圾蜘蛛。

这些垃圾蜘蛛除了消耗服务器资源不对给我们带来任何好处,最好直接屏蔽。

我写了一份 robots.txt 来屏蔽常见的垃圾指数,分享给大家,建议收藏。

User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /

这份 robots.txt 规则能屏蔽哪些爬虫?

User-agent

所属公司/项目

主要用途

被禁止的原因

AhrefsBot

Ahrefs

用于收集网页数据以进行SEO分析和反向链接检查。

可能消耗大量服务器资源,影响网站性能。

MJ12bot

Majestic-12

爬取网页以建立链接索引,支持Majestic搜索引擎的链接分析功能。

高频爬取可能导致服务器负载过高。

DotBot

DotNetDotCom.org

为SEO工具提供数据支持,收集网页信息。

爬取行为可能过于频繁,影响正常访问。

SemrushBot

Semrush

收集数据以支持SEO竞争分析、关键词研究等营销工具。

大量爬取可能导致资源占用过高。

ZoominfoBot

ZoomInfo

收集企业联系信息和公开数据,用于商业数据库。

可能抓取非***息或导致隐私问题。

BLEXBot

Content ad

爬取网页内容以生成广告或内容推荐。

可能抓取敏感内容或消耗过多带宽。

aiHitBot

aiHit

为aiHit公司收集企业数据,用于商业数据库。

爬取频率高或目标数据可能涉及隐私。

Mail.RU_Bot

Mail.RU (俄罗斯邮件服务)

为Mail.ru搜索引擎索引内容。

可能因爬取策略激进被网站屏蔽。

XoviBot

Xovi (SEO工具)

支持Xovi的SEO分析工具,爬取网页数据。

高频请求可能干扰正常服务。

完整规则如下(建议直接复制使用):

如何应用这份规则?

  1. 登录服务器,找到网站根目录。
  2. 创建或修改 robots.txt,粘贴上述规则。

文章来自:https://www.imwpweb.com/13615.html

你还建议屏蔽哪些呢?欢迎给我留言!