東莞網(wǎng)站設計網(wǎng)絡推廣公司易速網(wǎng)絡今天跟大家分享:怎樣避免蜘蛛陷阱
做SEO應該都知道,網(wǎng)站被搜索引擎收錄是關鍵,如果你的站點沒有被搜索引擎收錄,那么SEO就無從談起。所以要想網(wǎng)站能夠被搜索引擎發(fā)現(xiàn)且網(wǎng)頁能夠被搜索引擎正常收錄,那么首先就得使自己的站點便于蜘蛛的爬行。搜索引擎爬取網(wǎng)頁的工具被稱之為蜘蛛或爬蟲機器人,英文名即robot。
這些蜘蛛沿著超鏈接爬取我們的眾多頁面,但是有些頁面是爬不到的,有的是因為網(wǎng)站自身存在一些不利于蜘蛛爬行,導致其對應的頁面很難被搜索引擎收錄,這樣就形成了“蜘蛛陷阱”,一般指的是對搜索引擎不友好的網(wǎng)站制作技術,這些技術不利于蜘蛛爬取我們的頁面,為了避免這種情況,總結了一下有以下幾個因素,防止蜘蛛進入陷阱。
1:采用session id的頁面
有的銷售類站點為了分析用戶的某些信息會采用會話ID來跟蹤用戶,訪問站點的時候每個用戶訪問都會增加一次session id而加入到URL中,同樣蜘蛛的每一次訪問也會被當做為一個新用戶,每次蜘蛛來訪問的URL中都會加入一個session id,這樣就會產生了同一個頁面但URL不同的情況,這種的一來會產生復制內容頁面,造成了高度重復的內容頁,同時也是常見的蜘蛛陷阱之一。
2:常識性的蜘蛛陷阱,采用強制注冊或登錄才能訪問的頁面
這種的對于蜘蛛來說就相當為難了,因為蜘蛛無法提交注冊更無法輸入用戶名和密碼登錄查看內容,對于蜘蛛來說我們直接點擊查看到的內容也是蜘蛛所能看到的內容。
3:喜歡采用flash的站點
之所以說是喜歡采用flash的站點是因為對于一些中小型企業(yè)來說,因為flash本身可以做很多種效果,尤其是放在導航上視覺效果強,所以不少企業(yè)站喜歡弄個flash來展示自己公司的實力,文化,產品等,甚至一些企業(yè)站點的網(wǎng)站首頁就是一個flash,要么是在多長時間后通過flash跳轉到另外一個頁面,要么就是通過flash上的鏈接讓用戶自己點擊后進入一個新的頁面,但是對于蜘蛛來說一來是很難讀取flash中的內容,所以蜘蛛也很難點擊flash上的鏈接。
4:動態(tài)URL
在url中加入過多的符號或者網(wǎng)址參數(shù)等,這種蜘蛛陷阱我在url優(yōu)化中曾經(jīng)有提到,雖然說隨著搜索引擎的的技術發(fā)展,動態(tài)url對于蜘蛛的抓取已經(jīng)越來越不是問題了,但是從搜索引擎友好度上來講,靜態(tài)哪怕是偽靜態(tài)url相對來說都比動態(tài)url要好,可以看下很多SEO同行對于url中的處理方式。
5:框架
在早期框架到處被泛濫使用,而現(xiàn)在框架網(wǎng)頁很多網(wǎng)站已經(jīng)很少使用了,一是因為現(xiàn)在隨著各大CMS系統(tǒng)的開發(fā)問世,網(wǎng)站維護相對也越來越簡單了,早期網(wǎng)站使用框架是因為對網(wǎng)站頁面的維護有一定的便利性了,現(xiàn)在已經(jīng)大可不必了,而且不利于搜索引擎收錄也是框架越來越少被使用的原因之一。
6:JS
雖然現(xiàn)在搜索引擎對于javascript里的鏈接是可以跟蹤甚至在嘗試拆解分析的,但是我們好不要寄望于搜索引擎自己克服困難,雖然說通過js可以做一些效果不錯的導航,但是css同樣可以做到;為了提高網(wǎng)站對搜索引擎的友好度建議使網(wǎng)頁能夠更好的蜘蛛爬行,就盡量不要采用js,當然在seo中,js有一個好處就是站長不希望被收錄的頁面或者友情鏈接可以采用js。還有一種方法可以消除JavaScript 蜘蛛程序陷阱,即使用< noscript >標簽。< noscript >標簽是為不支持JavaScript 的瀏覽器提供備選的代碼。蜘蛛程序不會執(zhí)行JavaScript, 因此他們通過處理< noscript >代碼來代替。
7:深層次的網(wǎng)頁
有的網(wǎng)頁沒有入口,而且距離網(wǎng)站的首頁又很遠,這種頁面就相對較難被蜘蛛爬行到,當然對于那些權重高的網(wǎng)站可能會另當別論了。網(wǎng)站的頁面要被收錄,首先要需要基本的權重,首頁的權重一般是高的,然后首頁的權重是可以傳遞到內頁的,當內部頁面的權重上升到可以被收錄的門檻,頁面就會被收錄,按照這種理論,頁面之間的權重傳遞是會遞減的,因此,內頁和首頁的點擊距離越近,越容易得到更多的首頁權重傳遞。良好的網(wǎng)站結構可以讓網(wǎng)站更多的頁面被收錄。
8:強制使用cookies
對于搜索引擎來說是相當于直接禁用了cookies的,而有些網(wǎng)站為了實現(xiàn)某些功能會采取強制cookies,比如說跟蹤用戶訪問路徑,記住用戶信息,甚至是**用戶隱私等,如果用戶在訪問這類站點時沒有啟用cookies,所顯示的頁面就會不正常,所以對于蜘蛛來講同樣的網(wǎng)頁無法正常訪問。
9:各種形式的跳轉
對于301重定向相信很多seo童鞋已經(jīng)非常熟悉了,但是對于其他302,或者meta refresh,javascript,flash等跳轉,蜘蛛是很反感的,而且301也是不到萬不得已的時候采用,任何跳轉都會在一定程度上給蜘蛛的爬行帶來障礙,所以你你懂得。
10:robots.txt書寫錯誤和各種各樣的作弊手法
比如說隱藏文字,隱藏鏈接等,采用偽裝網(wǎng)頁在判斷來訪者是蜘蛛還是普通瀏覽器者而顯示不同的網(wǎng)頁,使用默認錯誤的404頁面等,同樣會給蜘蛛帶來爬行障礙。