10秒后自動關閉
如何攔截偽蜘蛛、假蜘蛛

偽蜘蛛是指爬蟲爬行網(wǎng)站時帶有搜索引擎標簽,但卻不是真的搜索引擎IP,也稱為假蜘蛛、偽爬蟲、假爬蟲。


偽蜘蛛用于哪些場景呢?

偽蜘蛛一般用于采集比較多。例如站群服務器,偽造蜘蛛全網(wǎng)采集網(wǎng)站數(shù)據(jù),再轉(zhuǎn)換輸出給瀏覽者。同時隨著AI的發(fā)展,很多AI公司也會以偽蜘蛛的方式收集數(shù)據(jù)用于大模型訓練。也有一些不法分子,采用偽造蜘蛛的方式掃描網(wǎng)站漏洞,讓管理員不敢貿(mào)然屏蔽他們的惡意IP。


偽蜘蛛有哪些危害呢?

如果只是為了采集網(wǎng)站數(shù)據(jù)的偽蜘蛛,并不會帶來安全問題,主要消耗帶寬、CPU等資源,嚴重時可導致網(wǎng)站無法正常使用。但可能產(chǎn)生另外一個嚴重后果:導致網(wǎng)站被降權。站群服務器都是采集其他網(wǎng)站數(shù)據(jù)轉(zhuǎn)化為自己的數(shù)據(jù)讓搜索引擎收錄,再將搜索進來的用戶導流到主網(wǎng)站。因為內(nèi)容和你的相同,就會對源網(wǎng)站的搜索引擎排名有所影響。


網(wǎng)上防護偽蜘蛛的方式及缺點

網(wǎng)上有一些攔截偽蜘蛛的方式,大體思路都是通過分析網(wǎng)站日志,找出帶有蜘蛛標簽的IP,再通過nslookup命令檢查此IP是否屬于蜘蛛。

這種方式大部分情況下沒問題,但有如下缺點:

1、 事后攔截,有滯后性,會放行一些偽蜘蛛訪問(不過總體影響不大)

2、 只對nginx有效,那IIS、Apache怎么辦呢?

3、 使用CDN的網(wǎng)站會被誤封。因為獲取到的蜘蛛IP全是CDN節(jié)點IP,肯定不屬于搜索引擎,導致全部誤殺。

4、 有些搜索引擎的蜘蛛不支持nslookup檢測(如360),也會導致全部誤判。


百度蜘蛛檢查結果,支持nslookup

(圖一:百度蜘蛛檢查結果,支持nslookup)



360蜘蛛檢測結果,不支持nslookup

(圖二:360蜘蛛檢測結果,不支持nslookup)



如何快捷有效的攔截偽蜘蛛呢?

要有效攔截偽蜘蛛,只有一個辦法:收集蜘蛛IP庫,攔截不在庫的蜘蛛IP

我們可以使用《護衛(wèi)神.防入侵系統(tǒng)》的“偽蜘蛛防護”模塊輕松解決此問題(如下圖三)。


偽蜘蛛防護

(圖三:偽蜘蛛防護)


護衛(wèi)神.防入侵系統(tǒng)內(nèi)置豐富的蜘蛛IP庫;不分析網(wǎng)站日志,爬蟲爬行時直接和蜘蛛IP庫庫比對,事前攔截無遺漏;自帶CDN穿透功能,即使使用了CDN也不受影響; IIS/Apache/Nginx均可使用;360搜索引擎也不受影響。

使用“寬松”模式,自帶學習算法,對于新增的蜘蛛IP,也能智能識別。


只需要選擇蜘蛛類型,點擊“確定”就可以開啟防護,是不是比網(wǎng)上的其他辦法簡單多了?如果你也遭遇偽蜘蛛問題,趕緊使用此方法攔截吧。攔截效果如下圖四:

偽蜘蛛攔截效果

(圖四:偽蜘蛛攔截效果)