掃二維碼與項目經理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯網交流
近日我們上線了“微構網絡項目管理與客戶服務管理系統(tǒng)”,得到眾多老客戶的一致好評。我們是紅網論壇的技術服務商,因此也在系統(tǒng)中把紅網論壇也納入網站狀態(tài)巡查計劃中,一般情況下即便是普通網站也不太會出現網站訪問異常問題,最多可能是各類預警級別的信息。然而就在今天收到了系統(tǒng)自動推送的異常信息,發(fā)現異常的項目還是紅網論壇。
當時就很詫異,怎么剛加入巡查網站就出現異常了,怎么回這么巧呢,而且紅網作為較大的媒體網站,不太可能輕易就出現這種異常呀。但細看系統(tǒng)反饋的結果是403異常返回碼,而不是直接不能訪問或者50x錯誤。
然后用瀏覽器打開紅網論壇,發(fā)現是可以完全正常訪問的。那么系統(tǒng)為啥會反饋這條異常信息的,難道我們的巡查系統(tǒng)誤報了么(客觀上,會存在誤報可能,只是幾率很低)。這個403異常返回碼的預警信息,在巡查系統(tǒng)中其實是為了識別某些掛馬代碼會單獨為了識別百度蜘蛛進行惡意跳轉的,因此在巡查系統(tǒng)中加入了Baiduspider等識別字符。
通過單元測試后發(fā)現,紅網論壇之所以被巡查系統(tǒng)發(fā)送異常提示,就是因為當訪問請求中包含了部分百度蜘蛛特征時,系統(tǒng)就會返回異常。
返回異常返回碼403,在返回body內容中出現了這樣的:
也就是被網站使用的防火墻工具(創(chuàng)宇盾)攔截了這種請求,因此網站系統(tǒng)會返回403狀態(tài)碼(即禁止訪問)。
憑借筆者有不少seo方面的經驗,于是就有兩個猜想:
1、防火墻會攔截所有來自百度蜘蛛的請求,不管是真實的百度蜘蛛,還是用于測試來模擬百度蜘蛛訪問。
2、防火墻比較高級,會識別真實的百度蜘蛛請求(真的蜘蛛)和模擬測試的蜘蛛請求(假的蜘蛛),如果是真實的不攔截,如果是假的攔截。
為了進一步分析,筆者查看了紅網論壇在百度搜索引擎上的表現,發(fā)現收錄的內容基本是之前創(chuàng)建的。嘗試了很多條新發(fā)布的內容,百度均沒有收錄。測試了數十條一個月以內發(fā)布的論壇主題,發(fā)現均不被百度收錄。
但是紅網這種影響力的網站,再者這種網站內容更新頻率和內容質量都比較高,而且網站搜索引擎權重也比較高。理應不會有這么差的收錄表現,即便是微構網絡這種企業(yè)官網小網站,幾乎能夠做到95%以上的收錄率,絕大多數時間都是100%的收錄率。所以,這顯然不正常。
再看下紅網www主站這種模擬請求,返回狀態(tài)是沒有問題(返回200)。
隨便在主站首頁找一篇內容,基本都是全部收錄,而且通過百度快照時間判斷,收錄時間很是非常快(可以認為是秒收)。
通過以上的信息,基本上可以評估認為,只要是帶有百度等搜索引擎蜘蛛的請求標識,都會被防火墻攔截。這樣一來,百度蜘蛛都被禁止訪問網站了,自然相關網站頁面也就不會被百度蜘蛛抓取到,抓取不到自然就不會被收錄了。
所以我們日常需要關注自己網站的一些狀態(tài),比如通過分析網站分析日志,也可以利用一些工具模擬搜索引擎訪問網站,查看返回的信息是否達到預期。
如上圖就是某網站訪問日志的部分節(jié)選,這段節(jié)選日志標志著百度、谷歌、必應等搜索引擎的蜘蛛到訪記錄,且網站返回結果是200(正常返回碼)。如果這些請求都是異常的,那么顯然網站在搜索引擎的表現不會太好。
我們在微信上24小時期待你的聲音
解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯網交流