掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
事實(shí)上關(guān)于搜索引擎蜘蛛大量抓取的問(wèn)題一直都存在的,比如宜某(國(guó)內(nèi)某非知名搜索引擎)就是因?yàn)槠渲┲胂哪承┚W(wǎng)站大量帶寬資源而使得它臭名昭著的,而實(shí)際上很多我們所看到的蜘蛛并不是搜索引擎的,而是一些不法分子偽造的,其實(shí)也算是在攻擊我們的網(wǎng)站。長(zhǎng)沙網(wǎng)站定制開(kāi)發(fā)團(tuán)隊(duì)微構(gòu)網(wǎng)絡(luò)看到,在百度站長(zhǎng)平臺(tái)上看到其官方發(fā)布的一篇關(guān)于這個(gè)問(wèn)題的文章,分享一下,可以供大家參考參考;全文如下:
Spider對(duì)網(wǎng)站抓取數(shù)量突增往往給站點(diǎn)帶來(lái)很大煩惱,紛紛找平臺(tái)想要Baiduspider IP白名單,但實(shí)際上BaiduSpider IP會(huì)隨時(shí)變化,所以并不敢公布出來(lái),擔(dān)心站長(zhǎng)設(shè)置不及時(shí)影響抓取效果。百度是怎么計(jì)算分配抓取流量的呢?站點(diǎn)抓取流量暴增的原因有哪些呢?
總體來(lái)說(shuō),Baiduspider會(huì)根據(jù)站點(diǎn)規(guī)模、歷史上網(wǎng)站每天新產(chǎn)出的鏈接數(shù)量、已抓取網(wǎng)頁(yè)的綜合質(zhì)量打分等等,來(lái)綜合計(jì)算抓取流量,同時(shí)兼顧站長(zhǎng)在抓取頻次工具里設(shè)置的、網(wǎng)站可承受的最大抓取值。
從目前追查過(guò)的抓取流量突增的case中,原因可以分為以下幾種:
1, Baiduspider發(fā)現(xiàn)站內(nèi)JS代碼較多,調(diào)用大量資源針對(duì)JS代碼進(jìn)行解析抓取
2, 百度其他部門(mén)(如商業(yè)、圖片等)的spider在抓取,但流量沒(méi)有控制好,sorry
3, 已抓取的鏈接,打分不夠好,垃圾過(guò)多,導(dǎo)致spider重新抓取
4, 站點(diǎn)被攻擊,有人仿冒百度爬蟲(chóng)(推薦閱讀:《如何正確識(shí)別BaiduSpider》)
如果站長(zhǎng)排除了自身問(wèn)題、仿冒問(wèn)題,確認(rèn)BaiduSpider抓取流量過(guò)大的話,可以通過(guò)反饋中心來(lái)反饋,切記一定要提供詳細(xì)的抓取日志截圖。
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流