阻止不遵循robots协议的搜索引擎蜘蛛抓取网页——不良机器人的黑洞

Wordpress2年前 (2023)发布 SUYEONE
780 0 0

互联网的某个时期,360搜索引擎因未遵守robots协议而被百度揭露,引发了热议。抛开争议不谈,我们关注的重点是如何防止那些不遵守规则的搜索引擎抓取我们的敏感信息。针对这一问题,WordPress官方插件库新添了一款名为Blackhole for Bad Bots的工具,专门用来对付这些不良爬虫。

这个创新的插件在robots.txt文件中创建了一个虚拟链接。当不守规矩的蜘蛛尝试访问这个链接时,它会被阻止访问网站的其他部分。而规范的搜索引擎是不会触碰这个链接的,因此能够正常抓取允许被抓取的网页。这种策略就像一个智慧的圈套:遵守规则者通行无阻,违规者则自食其果,悄无声息地被拒之门外。

Blackhole for Bad Bots设计简洁,代码清晰,基于WordPress API,确保了高效和灵活的运行。用户可以方便地重置或删除阻止的蜘蛛列表,所有操作都在后台完成,不会影响普通用户的浏览体验。此外,被阻止的爬虫还会通过whois进行追踪,并通过邮件发送警报。主流搜索引擎已被预设为白名单,避免误封,同时允许用户自定义添加其他搜索引擎到白名单。一键重置功能让管理变得更为便捷。

即使你的网站不是基于WordPress,只要使用php语言,也能通过Blackhole的独立PHP版本实现相同的功能。默认情况下,AOL, Bingbot, Googlebot, Teoma, Yahoo!, Yandex等主流搜索引擎不会被屏蔽,且支持手动添加更多搜索引擎至白名单。

总的来说,无论你的网站平台如何,Blackhole for Bad Bots提供了一种有效的方法,保护你的网站免受不守规矩的搜索引擎的侵扰。

© 版权声明

相关文章

暂无评论

暂无评论...
☺一键登录开启个人书签等功能!