使用宝塔时这样设置能高效的屏蔽“垃圾”爬虫/蜘蛛/采集器

一、屏蔽“垃圾”爬虫/蜘蛛的作用

拦截垃圾蜘蛛、爬虫、采集器可以有效的降低服务器消耗,加快用户访问速度;并且可以减速流量的耗损,对搜索引擎的收录也更有利。

二、屏蔽方法:

我们可以使用 宝塔的UA防火墙插件,添加相应的屏蔽规则来实现,废话不多说,下面是操作步骤:
1.安装宝塔linux防火墙。

软件管理 → linux防火墙免费版→ 全局配置 → User-Agent过滤

安装完成后, 添加下列规则:

#关键词过滤1        
(HTTrack|Apache-HttpClient|harvest|audit|dirbuster|pangolin|nmap|sqln|hydra|Parser|libwww|BBBike|sqlmap|w3af|owasp|Nikto|fimap|havij|zmeu|BabyKrokodil|netsparker|httperf| SF/)

#可疑UA特征
(hidden|secret|scan|hack|exploit)
        
#新增扫描器
(zap|arachni|wpscan|skipfish)
        
#社交媒体爬虫
(Twitterbot|facebookexternalhit|Facebot|LinkedInBot)
        
#搜索引擎 & 商业爬虫        
(Googlebot|GoogleOther|Adsbot|Bingbot|DuckDuckBot|Bytespider|zhanzhang\.toutiao|Barkrowler|BLEXBot|MegaIndex|MJ12bot|AhrefsBot|SemrushBot|DataForSeoBot|dataforseo|DotBot|Web-Crawler|ExtLinksBot)

#安全扫描工具
(nmap|hydra|sqln|sqlmap|nikto|w3af|dirbuster|netsparker|havij|owasp|ZAP|BurpSuite|acunetix|nessus|Metasploit)
        
#自动化工具/框架
(Apache-HttpClient|Go-http-client|python-requests|Scrapy|curl|PostmanRuntime|Paw|HTTPie|okhttp|RestSharp)
        
#数据采集器
(HTTrack|harvest|audit|fimap|webprosbot|SurdotlyBot|msray-plus|iaskspider|RepoLookoutBot|CensysInspect)
        
#云服务/厂商
(AWS SDK|Amazonbot|aws-sdk-java|alibaba|YandexBot|DigitalOcean|Linode|Azureus|EC2|GCE)
        
#网络扫描/监控
(Masscan|zmap|Nessus|OpenVAS|SolarWinds|PaloAlto|Sophos|Fortinet|Cisco)
        
#开发调试工具
(Postman|Fiddler|Wget|WinHTTP|Synapse|Electron|PhantomJS|SlimerJS|CefClient)
        
#AI相关        
(ChatGLM|GPTBot|openai|GPT-4|Claude-ai)

#其他常见需要过滤的
(SP-engine|Shuame|Ezooms|FlightDeckReports|InternetMeasurement|WebDAV|WebScarab)
        
#协议库/通用组件
(libwww|libcurl|fasthttp|axios|Java|PHP|Python|Ruby|Perl|Node\.js|Go |\.NET)
        
#桌面/服务器系统
(CrOS|X11; Linux|FreeBSD|ArchLinux|Ubuntu; Mobile)

注意:开启防火墙后记得把给自己的IP设置为白名单。

如果你有其他见解,欢迎大家给 www.zhuei.cn 留言参与讨论,以便发现错误让我们及时更正!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注