掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
作為一個(gè)企業(yè)的網(wǎng)站管理員,日常查詢自己所管理的網(wǎng)站狀態(tài)是必不可少的一件工作,而有的時(shí)候我們突然進(jìn)行site指令查詢的時(shí)候發(fā)現(xiàn)連通率出問(wèn)題你肯定會(huì)很沮喪。那么為了更好地解決這類(lèi)問(wèn)題,來(lái)自百度站長(zhǎng)平臺(tái)的這篇文章也許你用得著,全文如下:
連通率為0的可怕后果還有站長(zhǎng)朋友不知道嗎?索引和流量曲線圖像坐過(guò)山車(chē)一樣讓人心驚肉跳,站長(zhǎng)朋友site自己的站點(diǎn)看到連通率為”0″時(shí)會(huì)不會(huì)很驚慌感覺(jué)無(wú)從下手?我們百度站長(zhǎng)平臺(tái)社區(qū)的資深版主老呂不僅為大家分析了連通率為0的幾種可能,更提供了預(yù)防措施和補(bǔ)救方法。文章首發(fā)于2015年1月,學(xué)院并沒(méi)有立即發(fā)布出來(lái),而是經(jīng)過(guò)一段時(shí)間的實(shí)踐檢驗(yàn),證明:靠譜!特現(xiàn)在分享給大家:
既然為率,那么就是一個(gè)統(tǒng)計(jì)相關(guān)概念。我們不妨可以這樣理解一個(gè)網(wǎng)站的連通率:百度蜘蛛在抓取網(wǎng)站頁(yè)面的時(shí)候計(jì)算的一個(gè)概率,比如它抓取某網(wǎng)站中的N個(gè)頁(yè)面,這N個(gè)頁(yè)面都能打開(kāi)并被蜘蛛成功抓取,這樣的連通率就是N/N=100%,反之蜘蛛抓取N個(gè)頁(yè)面有M個(gè)頁(yè)面能成功抓取,連通率就是M/N
這里先說(shuō)明幾個(gè)常識(shí):
1、不是網(wǎng)站被某算法懲罰而導(dǎo)致連通率為0,也不是網(wǎng)站流量下降而導(dǎo)致連通率數(shù)值很低;
2、連通率代表著百度蜘蛛獲取網(wǎng)站數(shù)據(jù)的情況,如果連通率數(shù)值很低或?yàn)?,那么可能連維持網(wǎng)站的正常收錄等都成問(wèn)題;
3、假如網(wǎng)站被判定連通不了,那么如果讓一個(gè)連通不了的站點(diǎn)在百度中獲取排名,就會(huì)大大影響搜索用戶的體驗(yàn),于是百度就會(huì)采取對(duì)該站點(diǎn)有效引流的索引清除操作,一些站長(zhǎng)就會(huì)發(fā)現(xiàn)自己的網(wǎng)站索引量突然大幅度下降,甚至索引被短暫清0了,接著就是網(wǎng)站百度搜索流量大幅度下降,這種突發(fā)性的事件又會(huì)造成站長(zhǎng)們的揣測(cè),以為自己的網(wǎng)站被百度懲罰了,其實(shí)站長(zhǎng)們先應(yīng)該注意的是站點(diǎn)的連通情況。
上述概念中,我們需要注意的幾個(gè)詞有:”百度蜘蛛”; ”在抓取”; ”N個(gè)頁(yè)面”; ”M個(gè)頁(yè)面”; ”都能打開(kāi)并被成功抓取”。
我們抓住上述5個(gè)提取出的核心詞進(jìn)行分析。
(一)百度蜘蛛
1、謹(jǐn)防百度蜘蛛訪問(wèn)被操控或禁止
(1)由于百度蜘蛛的抓取量等原因?qū)σ恍┓?wù)器造成壓力,而這些網(wǎng)絡(luò)商或網(wǎng)站運(yùn)營(yíng)方從某利益角度考慮,無(wú)意或有意的屏蔽百度蜘蛛,導(dǎo)致部分或全部百度蜘蛛ip獲取不到網(wǎng)站數(shù)據(jù);
(2)一些網(wǎng)站運(yùn)營(yíng)方或網(wǎng)絡(luò)商對(duì)蜘蛛進(jìn)行區(qū)別對(duì)待,比如國(guó)外蜘蛛ip、山東蜘蛛ip、北京蜘蛛ip等返回不同的數(shù)據(jù),移花接木的手段層出不窮,而這個(gè)過(guò)程很可能造成百度蜘蛛的異常行為或異常狀態(tài)返回;
所以我們首先要確保百度蜘蛛的訪問(wèn)有沒(méi)有被操控或禁止。
2、預(yù)防措施
(1)完善聯(lián)系方式獲得百度站長(zhǎng)工具消息提醒
雖然一些網(wǎng)站異常情況會(huì)收到百度站長(zhǎng)工具消息提醒,然而我想告訴大家不是所有自己站點(diǎn)異常都可以寄希望于消息提醒的,自己心里要知道連發(fā)郵件都可能出現(xiàn)收不到的情況,更何況各種復(fù)雜的異常情況,因此不要出問(wèn)題了只會(huì)問(wèn)“為什么站長(zhǎng)工具沒(méi)有給我發(fā)消息”。
(2)利用抓取異常和抓取頻次工具觀察抓取情況
抓取頻次工具的抓取統(tǒng)計(jì)情況
每個(gè)工具頁(yè)面的右側(cè)下方都有使用說(shuō)明,如下
(3)抓取診斷工具是重中之重
為了保證網(wǎng)站對(duì)百度蜘蛛的穩(wěn)定訪問(wèn)性能,日常我們需要養(yǎng)成定期抓取診斷的習(xí)慣,另外抓取診斷不是說(shuō)光看看狀態(tài)是否“抓取成功”就行了。有下面幾步進(jìn)行:
第一步:下拉選擇分”pc”、 ”移動(dòng)”進(jìn)行抓取,”pc”意味著一般意義上的電腦端訪問(wèn)診斷,”移動(dòng)”則
是如手機(jī)、平板等移動(dòng)設(shè)備端訪問(wèn)診斷;
第二步:網(wǎng)站主要的引流頁(yè),如首頁(yè)、詳情頁(yè)、內(nèi)容頁(yè)、專(zhuān)題頁(yè)等都要進(jìn)行抓取,另外可以重點(diǎn)幾個(gè)時(shí)間段(比如網(wǎng)站高峰時(shí)間段)每天定期進(jìn)行測(cè)試;
第三步:抓取失敗了,點(diǎn)擊”抓取失敗”查看提示信息,如果自己沒(méi)有技術(shù)能力解決問(wèn)題,可以跟空間商進(jìn)行溝通,然后向工具提交報(bào)錯(cuò);
第四步:抓取成功后,也不能說(shuō)就萬(wàn)事大吉了,還要點(diǎn)擊”抓取成功”進(jìn)去注意:提交網(wǎng)址、抓取網(wǎng)址、抓取UA、網(wǎng)站ip、下載時(shí)長(zhǎng)、頭部信息(服務(wù)器返回狀態(tài)碼、gzip等相關(guān)信息)、網(wǎng)頁(yè)源碼是否都正常。
特別說(shuō)明:有很多站長(zhǎng)就光注意抓取成功,卻不知網(wǎng)站ip可能并非自己的實(shí)際ip,被網(wǎng)絡(luò)商搞到哪里去了都不知道,還可能每隔一段時(shí)間都變。當(dāng)發(fā)現(xiàn)ip有問(wèn)題,及時(shí)跟網(wǎng)絡(luò)商溝通,并在網(wǎng)站ip旁點(diǎn)擊“報(bào)錯(cuò)”按鈕,百度會(huì)更新網(wǎng)站ip,但是切記不要ip變化頻繁。此外當(dāng)然還可能出現(xiàn)實(shí)際抓取網(wǎng)址、頭部信息、網(wǎng)頁(yè)源碼等都不是自己本來(lái)設(shè)置的。
(二)在抓取
這是反映時(shí)的百度蜘蛛在抓取狀態(tài),百度的工具顯示的數(shù)值肯定都是抓取后計(jì)算出來(lái)的數(shù)據(jù),因此任何工具的連通率數(shù)據(jù)必定存在延遲性,另外這個(gè)計(jì)算過(guò)程也存在一定可能的錯(cuò)誤,所以我們看到任何工具中關(guān)于連通率的數(shù)據(jù),不要說(shuō)“我網(wǎng)站用抓取診斷等工具檢查訪問(wèn)情況都好好的,為什么連通率還是0”,因此除了上述建議的多抓取診斷測(cè)試外,自己可以加些監(jiān)控網(wǎng)站連接狀態(tài)的措施,筆者本人就曾經(jīng)接收了不少關(guān)于網(wǎng)站連接不通的提醒。這時(shí)我會(huì)及時(shí)跟網(wǎng)絡(luò)商溝通,然后及時(shí)用抓取診斷檢查蜘蛛的情況。
(三)N個(gè)頁(yè)面與M個(gè)頁(yè)面
這N、M個(gè)頁(yè)面,可能百度蜘蛛很湊巧就趕上高峰的時(shí)候或者一些假死頁(yè)面(執(zhí)行時(shí)間較長(zhǎng),超過(guò)蜘蛛的耐心),那么M這個(gè)數(shù)值就會(huì)很低,統(tǒng)計(jì)概率的東西大家都懂的,那么這時(shí)網(wǎng)站的連通率依舊很低或?yàn)?。因此若連通率為0,我們還可以知道自己應(yīng)該注意查看訪問(wèn)日志,及時(shí)清理死鏈,或者并發(fā)連接數(shù)增大,或者增加內(nèi)存等等。
(四)都能打開(kāi)并被成功抓取
這里主要注意DNS和空間的穩(wěn)定性。
1、DNS的問(wèn)題
——–下方為百度官方資料————-
當(dāng)心dns服務(wù)器不穩(wěn)導(dǎo)致站點(diǎn)被屏
近期百度站長(zhǎng)平臺(tái)收到多個(gè)反饋,稱(chēng)網(wǎng)站從百度網(wǎng)頁(yè)搜索消失,site查詢發(fā)現(xiàn)連通率為0。
經(jīng)追查發(fā)現(xiàn)這些網(wǎng)站都使用godaddy的DNS服務(wù)器 *.DOMAINCONTROL.COM,此系列DNS服務(wù)器存在穩(wěn)定性問(wèn)題,Baiduspider經(jīng)常解析不到ip,在Baiduspider看來(lái),網(wǎng)站是死站點(diǎn)。
此前我們也發(fā)現(xiàn)過(guò)多起小dns服務(wù)商屏蔽Baiduspider解析請(qǐng)求或者國(guó)外dns服務(wù)器不穩(wěn)定的案例。
建議站長(zhǎng)盡可能使用國(guó)內(nèi)大型服務(wù)商提供的DNS服務(wù),如dnspod等,以保證站點(diǎn)的穩(wěn)定解析。
——–上方為百度官方資料————-
筆者提醒大家注意的是現(xiàn)在不少云類(lèi)ns服務(wù)器,這個(gè)過(guò)程中由于處理機(jī)制問(wèn)題,包括回源障礙等等,較容易造成這個(gè)問(wèn)題。另外國(guó)內(nèi)大型服務(wù)商提供,比如你使用了dnspod,并不代表你的dns就應(yīng)該是ok的。有的站長(zhǎng)存在著對(duì)大型服務(wù)商的錯(cuò)誤認(rèn)識(shí),如 “新網(wǎng)的dns就是不可靠的,我都用百度云加速”。我們要明白廉價(jià)的東西質(zhì)量都有一定局限性,所以需要自己檢查dns解析情況,具體上網(wǎng)找找相關(guān)資料或平臺(tái),看看dns解析出的ip以及解析延遲情況等等。
2、空間的穩(wěn)定性
很多人都會(huì)用超級(jí)ping了,這個(gè)不多說(shuō)了。但是我還要告訴大家有下面兩點(diǎn)需要注意:
A、不良的網(wǎng)絡(luò)商會(huì)對(duì)不同用戶ip進(jìn)行不同處理,自己可以用vpn等工具觀察下不同地區(qū)ip段的網(wǎng)站訪問(wèn)情況與返回內(nèi)容;
B、空間的資源不足,內(nèi)存、并發(fā)連接等等,當(dāng)訪問(wèn)量很少的時(shí)候,自己察覺(jué)不出,需要提高訪問(wèn)量,增加連接時(shí)間。因此使用一些監(jiān)控工具時(shí),發(fā)現(xiàn)監(jiān)控工具訪問(wèn)測(cè)試量巨大,或者被人刷流量時(shí),你應(yīng)該慶幸,而不是著急拒絕,因?yàn)槟憧梢粤私獾阶约旱目臻g承壓能力。
如果你的網(wǎng)站索引由于連通率而非懲罰原因被清理了,處理完畢問(wèn)題,可以在抓取頻次工具中提交增加抓取頻次的請(qǐng)求,將抓取頻次增加到一定額度(建議自己查看工具中對(duì)抓取頻次的說(shuō)明后再根據(jù)網(wǎng)站實(shí)際情況調(diào)整),然后增加自己的網(wǎng)站數(shù)據(jù)更新頻率與質(zhì)量,加強(qiáng)與百度的數(shù)據(jù)溝通(如url提交、sitemap等等),很快就能恢復(fù)。相關(guān)工具展示如下(每個(gè)工具頁(yè)面的右側(cè)下方都有相關(guān)說(shuō)明鏈接,可以點(diǎn)擊去了解使用注意事項(xiàng)):
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流