抓取份額是搜索引擎蜘蛛花在一個(gè)網(wǎng)站上的抓取頁(yè)面的總的時(shí)間上限:
顧名思義,抓取份額是搜索引擎蜘蛛花在一個(gè)網(wǎng)站上的抓取頁(yè)面的總的時(shí)間上限。對(duì)于特定網(wǎng)站,搜索引擎蜘蛛花在這個(gè)網(wǎng)站上的總時(shí)間是相對(duì)固定的,不會(huì)無(wú)限制地抓取網(wǎng)站所有頁(yè)面。
抓取份額的英文Google用的是crawl budget,直譯是爬行預(yù)算,我覺(jué)得不太能說(shuō)明是什么意思,所以用抓取份額表達(dá)這個(gè)概念。
抓取份額是由什么決定的呢?這牽扯到抓取需求和抓取速度限制。
二、抓取需求
抓取需求,crawl demand,指的是搜索引擎“想”抓取特定網(wǎng)站多少頁(yè)面。
決定抓取需求的主要有兩個(gè)因素。一是頁(yè)面權(quán)重,網(wǎng)站上有多少頁(yè)面達(dá)到了基本頁(yè)面權(quán)重,搜索引擎就想抓取多少頁(yè)面。二是索引庫(kù)里頁(yè)面是否太久沒(méi)更新了。說(shuō)到底還是頁(yè)面權(quán)重,權(quán)重高的頁(yè)面就不會(huì)太久不更新。
頁(yè)面權(quán)重和網(wǎng)站權(quán)重又是息息相關(guān)的,提高網(wǎng)站權(quán)重,就能使搜索引擎愿意多抓取頁(yè)面。
三、抓取速度限制
搜索引擎蜘蛛不會(huì)為了抓取更多頁(yè)面,把人家網(wǎng)站服務(wù)器拖垮,所以對(duì)某個(gè)網(wǎng)站都會(huì)設(shè)定一個(gè)抓取速度的上限,crawl rate limit,也就是服務(wù)器能承受的上限,在這個(gè)速度限制內(nèi),蜘蛛抓取不會(huì)拖慢服務(wù)器、影響用戶訪問(wèn)。
服務(wù)器反應(yīng)速度夠快,這個(gè)速度限制就上調(diào)一點(diǎn),抓取加快,服務(wù)器反應(yīng)速度下降,速度限制跟著下降,抓取減慢,甚至停止抓取。
所以,抓取速度限制是搜索引擎“能”抓取的頁(yè)面數(shù)。
聲明:本站部分內(nèi)容及圖片來(lái)自互聯(lián)網(wǎng),轉(zhuǎn)載是出于傳遞更多信息之目的,內(nèi)容觀點(diǎn)僅代表作者本人,如有任何標(biāo)注錯(cuò)誤或版權(quán)侵犯請(qǐng)與我們聯(lián)系(Email:2242241319@qq.com),我們將及時(shí)更正、刪除,謝謝。