一、蜘蛛爬取原理
大自然的蜘蛛我相信大家都看到過,它是通過網(wǎng)來進行爬取的。而搜索引擎的蜘蛛是通過鏈接來爬取的。蜘蛛在網(wǎng)頁上爬取到一個鏈接就會把它放到一個單獨的數(shù)據(jù)庫。這些數(shù)據(jù)庫都是有特性的,特性就是域名的后綴。
常用的后綴有、.org、、.cn、.cn等等。
蜘蛛會把這些域名后綴的鏈接放到一個數(shù)據(jù)庫,然后逐個去爬取,這可能是很多站長朋友的一個誤區(qū)。蜘蛛是不會像用戶一樣直接點擊進入的,如果那樣,那么這個蜘蛛就可以一直在外面不用回家了。因為每個網(wǎng)頁都是有鏈接不斷的循環(huán)的,爬不完的。
百度反向鏈接蜘蛛也是會爬取的,有些朋友稱之為相關域。百度相關域的意思就是說,只有一個頁面被百度收錄了,并且這個頁面包含你的域名,比如:www.yjszhukao ,這不是一個超鏈接,但是只有百度收錄了我寫的這篇文章的頁面,那么蜘蛛是會把這個域名列入它的數(shù)據(jù)庫的,然后也會爬取。并且也會計算權重,這就是我們所說的鏈接誘餌,用來吸引蜘蛛。
二、如何加快百度快照以及收錄
百度快照的更新是因為蜘蛛重新抓取了你網(wǎng)站的頁面,發(fā)現(xiàn)你的內(nèi)容有改動,所以就會返回快照日期。當然有些朋友就會說,我的網(wǎng)站一個多月甚至更久都沒有更新過,但是我的快照依然每天更新,這個你怎么解釋。這個是因為你的網(wǎng)站權重高,蜘蛛經(jīng)常來你的網(wǎng)站,這個它也是會不斷的返回數(shù)據(jù),更新你的百度快照。所以總結一點,想讓快照更新快,其中很重要的一點就是吸引蜘蛛來到你的網(wǎng)站,如果蜘蛛都不來,那么百度如何更新?除非你和李彥宏有一腿(后面省略300字)。
那么如何加快收錄呢?不知道各位站長朋友是否發(fā)現(xiàn)這樣一個現(xiàn)象。查看IIS日志的時候,發(fā)現(xiàn)某個頁面被蜘蛛爬取過,但是沒有收錄,過了一陣子又發(fā)現(xiàn)被收錄了。這是為什么?這個原因很簡單,蜘蛛不可能來一次就爬取你網(wǎng)站里面的所有頁面,也不可能把所有爬取的都收錄,那樣數(shù)據(jù)量太龐大,服務器壓力太大。蜘蛛來到網(wǎng)站以后會把頁面下載到它自己的數(shù)據(jù)庫,然后進行分析。分析內(nèi)容,然后計算一個分數(shù),再來評分。那么想要加快收錄,結合我上面說的引蜘蛛,讓蜘蛛不斷的來到你的網(wǎng)站,并且更新一些用戶度了有用的文章。不一定要是原創(chuàng),或者偽原創(chuàng)。
很多朋友不解,都說網(wǎng)站更新要原創(chuàng)和偽原創(chuàng),你這樣復制人家的,百度會K掉你的,重復了。其實并非這樣,說到這里,這就涉及到一個用戶跳出率的概念了。百度收錄一篇文章,也是會通過用戶的喜好來判斷的,如果你這篇文章有用,用戶喜歡,那么一樣會收錄的,因為用戶有需求。只有呈現(xiàn)給用戶好的,才叫高質(zhì)量的文章,而并非是你自己改改標題,顛倒一下文章順序,就是一篇好的文章。
始終記住一點,搜索引擎是為用戶服務的,一切符合用戶的設計,就是符合搜索引擎。
上一條:
新手做網(wǎng)站如何構建一個網(wǎng)站的布局下一條:
電商企業(yè)面臨資金壓力:廣告成本年增4至10倍