“谷歌中文網(wǎng)站管理員博客”剛剛發(fā)表了一篇新文章,介紹了一下《google 網(wǎng)站管理員工具》中推出的新功能 -“網(wǎng)站性能”。這個工具是通過google工具欄記錄了用戶訪問你網(wǎng)站的速度,并給出了很多加快你網(wǎng)站速度的建議。
http://www.googlechinawebmaster.com/2009/12/blog-post_30.html
而最近也傳聞google將會把網(wǎng)頁加載速度作為影響排名的一個因素。那么網(wǎng)頁打開速度是不是能影響SEO效果?如果能影響,那是怎么影響的呢?
在揭示其中的道理之前,我希望大家能把上面那些傳聞或“網(wǎng)站性能”的功能都忘掉。讓我們追本溯源,來看看網(wǎng)頁打開速度和SEO流量之間的關系。
做SEO有時候不需要聽從別人給你的信息和意見,你只要專注于研究搜索引擎,同樣也能成功的。這種關系的發(fā)現(xiàn),也得益于早期我非常重視數(shù)據(jù)分析,所以我在《怎么樣去學SEO(二)》中把數(shù)據(jù)分析能力列為SEOer應該具備的四大能力之一。由于有很多數(shù)據(jù)做支撐,現(xiàn)在我來給大家分析其中的聯(lián)系,大家就容易看懂很多。
到了后期,連google也認識到了網(wǎng)頁速度和SEO流量之間的關系,所以在這個“網(wǎng)站性能”以前就推出過相關的工具來幫助網(wǎng)站管理員。
要說明這種關系,就要從搜索引擎爬蟲說起。不知道大家對于搜索引擎爬蟲在一個網(wǎng)站上的行為有沒有概念,我現(xiàn)在發(fā)一下某個網(wǎng)站(不是alibaba)的一些數(shù)據(jù)出來,大家就能意識到一些爬蟲的特性了。下面是從服務器LOG日志中分析出的數(shù)據(jù)。
圖1:爬蟲訪問次數(shù)
—-
圖2:爬蟲停留時間
從上面圖1中可以看到google訪問這個網(wǎng)站206次,這206次里面是由很多個不同的爬蟲訪問的。圖2顯示:有的爬蟲一天之內(nèi)來了8次,一共停留了2小時左右,有的爬蟲來了1次,停留了20多個小時以上。所以這個網(wǎng)站是被很多個爬蟲在不間斷的訪問的。為了計算方便,可以把google所有的爬蟲停留在這個網(wǎng)站的總時間加起來。雖然一天只有24個小時的,但是google的爬蟲這一天花在這個網(wǎng)站上的時間可能是成百上千多個小時。這里真實的數(shù)據(jù)是:在這個網(wǎng)站中,google所有爬蟲那天在這個網(wǎng)站上花費的實際總時間是721個小時。
而服務器LOG日志里同樣可以分析出爬蟲在一個網(wǎng)頁上的停留時間。如:
圖3:爬蟲停留時間
得到了這兩個數(shù)據(jù)以后,用所有爬蟲總的停留時間除以單個頁面的停留時間,就是搜索引擎爬蟲這天所抓取的頁面總量。
721 小時× 3600 秒 ÷ 35 秒 = 74160 頁
那么得到這個搜索引擎爬蟲這天所抓取的頁面總量有什么用呢?
對于一般的小網(wǎng)站來說,一天能被抓取 74160頁是一個很不錯數(shù)據(jù)。但是我上面給出的是一個中型網(wǎng)站,它整個網(wǎng)站的頁面總量有800多萬有SEO價值的頁面。那么,在最理想的情況下,這些頁面被搜索引擎抓取完要花費的時間為:
800萬 ÷ 74160 頁 = 108 天
這是理論上最理想的情況,實際上真實的情況為:
由于有多個爬蟲在抓取網(wǎng)站,有很多的頁面在一天之內(nèi)是會被爬蟲重復抓取的。有的頁面一天之內(nèi)被抓取20多次,有的頁面一天之內(nèi)只被抓取1次。通過 “停留總時間 ÷ 單個頁面停留時間” 得到的頁面數(shù)量,是沒有去除那些重復抓取的頁面的。所以搜索引擎一天之內(nèi)實際抓取的不重復頁面沒有74160頁那么多,而是40000頁的樣子。還有一點,爬蟲今天抓取的頁面,到了明天還有很多會被重復抓取。所以爬蟲不光在同一天內(nèi)會重復抓取很多頁面,而且到了下一天還是會重復抓取前一天抓取過的很多頁面。
這樣下來,爬蟲平均每天抓取不重復的頁面數(shù)量就只有10000頁的樣子了。那么,要爬蟲把這個網(wǎng)站所有的頁面抓取完需要的時間為:
800萬 ÷ 1萬頁 = 800天
其實,這個800天抓取完整個網(wǎng)站還是太理想化了。實際的情況是很多網(wǎng)站由于結構的原因,有些網(wǎng)頁創(chuàng)建后4-5年,都還沒被爬蟲抓取過。
上面的這個分析過程,都沒用到什么驚天動地的計算方法。只要你有一點數(shù)據(jù)分析的意識,就能看清楚事實的。當一個網(wǎng)站收錄量不理想,大家就應該去看看那些頁面是不是被搜索引擎爬蟲瀏覽過。如果一個頁面都沒有被搜索引擎爬蟲瀏覽過,是不可能會被收錄的。一個網(wǎng)站的收錄量沒有上去,那SEO流量的提升就會有很大的一個瓶頸。
根據(jù)我們剛才上面的那個分析過程,要提升網(wǎng)站的收錄量,首先要解決的就是搜索引擎每天抓取網(wǎng)站的抓取量。而:
抓取量 = 爬蟲總的停留時間 ÷ 單個頁面的停留時間
一個網(wǎng)站,爬蟲總的停留時間在某個期間是保持相對固定的。當然,有方法提高爬蟲總的停留時間,不過這不是這篇文章要講的內(nèi)容。我們先通過減少個頁面的停留時間也可以增加爬蟲的抓取量。
減少爬蟲單個頁面的停留時間,可以簡單的認為提高網(wǎng)頁加載速度就可以了,雖然實際上這兩個因素之間還存在著一個對應關系,但是這里先不講。這個時候,網(wǎng)頁的加載速度就和抓取量之間有了一個正比的關系,網(wǎng)頁加載速度越快,爬蟲整個的抓取量就越大。抓取量越大,有效收錄量就會增加,從而促使SEO流量增加,因為給一個大中型網(wǎng)站帶來流量的,90%以上都是長尾詞。大中型網(wǎng)站,有時甚至是小網(wǎng)站,只要收錄量增加一定的百分比,SEO流量也會增加一定的百分比。網(wǎng)頁的加載速度,就和SEO流量之間建立了一個這樣的關系。
其實,google也知道網(wǎng)頁速度和SEO流量之間的關系,所以早在“網(wǎng)站性能”這個功能推出以前,就推出了另一個功能讓大家去用,那個功能就是“google 網(wǎng)站管理員工具”里的“抓取統(tǒng)計信息”。那里把爬蟲對你網(wǎng)站的抓取量,和你網(wǎng)頁下載的平均時間都列了出來。
如果大家平常注意觀察這里面的數(shù)據(jù)就會發(fā)現(xiàn)這樣的規(guī)律:一旦網(wǎng)站下載時間減少了,那抓取量就會增大一點。
一般小網(wǎng)站,這樣的規(guī)律還不是太明顯。因為有其他影響這個規(guī)律的因素存在,而且小網(wǎng)站頁面數(shù)太少了,爬蟲隨便多增加幾百頁的抓取量就影響了50%以上的抓取量。但是在大中型網(wǎng)站,這個規(guī)律是非常明顯的。如:
抓取統(tǒng)計信息
當這個網(wǎng)站加快了網(wǎng)頁加載速度,爬蟲的抓取量就穩(wěn)步增加了。這個圖表能很有利的證明上面提到的理論。
這個圖表也再次證明了我在《google 的良苦用心:網(wǎng)站管理員工具》里說的:“google網(wǎng)站管理員工具里的每個功能都是和SEO相關的”。
關于網(wǎng)頁速度和排名,google否認曾經(jīng)將網(wǎng)頁速度列為提高排名的因素。而 Matt Cutts 最近也說:In a nutshell – while slow page load times won’t negatively impact your rankings, fast load times may have a positive effect. 有人把它翻譯成:網(wǎng)頁加載速度慢,不會影響Google排名,但是網(wǎng)頁加載快卻對排名有積極作用。 其實這樣翻譯是沒有理解這句話,Matt Cutts的意思是:網(wǎng)頁加載速度慢,不會影響Google排名,但是網(wǎng)頁加載快卻有積極作用。拿掉以前那個翻譯中的“對排名”三個字即可。至于其中的原因,我想通過這篇文章大家都理解了吧。
這也是為什么我要在《內(nèi)部鏈接還是外部鏈接》里強調(diào)一下的:有時候是因為“你沒有掌握到他們那么多信息,所以你無法理解他們的話。也不會推測出他們的潛臺詞以及他們沒有說全的話而已。” 我其實很少關注Matt Cutts說什么,但是我看到那篇翻譯的文章,就斷定Matt Cutts不會那么說。
另外,這個文章中的LOG日志分析工具,在我最近建立的“新基地論壇”上有下載。不過那里需要論壇金幣才能下載的。獲得論壇金幣最快的方法就是把你所擁有的好資源也貢獻出來。我希望能用這個方法創(chuàng)造一個“人人為我,我為人人”的環(huán)境,做一個高質(zhì)量的論壇。
原文地址:http://www.semyj.com/archives/969
江西省上饒市廣信區(qū)三清山中大道588號7棟5號
電話:0793-8313026 7094119
傳真:0793-8313026
手機:18079306668 13576325382 曾
郵箱:174216168@qq.com
QQ:174216168
Copyright © 2008-2019 (srlrcm.cn) 獵人傳媒. All Rights Reserved.
贛ICP備08101270號-1 百度統(tǒng)計