
專注用戶體驗(yàn)設(shè)計(jì)與開發(fā)
-
商務(wù)合作
- 郵箱:123456789@qq.com
- 手機(jī):15323711532
- 座機(jī):0755-84185494
- 地址:廣東省深圳市龍崗區(qū)布吉中興路21號(hào)基業(yè)大廈
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號(hào)
對(duì)于一個(gè)SEO新手來(lái)說(shuō),你不需要考慮太多的東西,明白了偽原創(chuàng)也是制勝的法寶的真諦,了解獲取外鏈資源的方法,足以讓你受益匪淺。而隨著SEO工作的不斷深入,你也就會(huì)慢慢的發(fā)現(xiàn)充分利用好網(wǎng)絡(luò)給予你的一針一線的重要性。了解搜索引擎的工作原理,其意義自然不在話下。
搜索引擎的工作原理,簡(jiǎn)單來(lái)說(shuō),主要是三個(gè)步驟:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息;同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫(kù);再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。排名這一塊設(shè)計(jì)算法問(wèn)題,暫且不去深究,這里主要說(shuō)說(shuō)爬行和抓取以及預(yù)處理兩個(gè)方面。
搜索引擎爬行和抓取原理通過(guò)蜘蛛程序,各搜索引擎在訪問(wèn)網(wǎng)站時(shí)都會(huì)先去抓取網(wǎng)站根目錄下的robots.txt文件,從而獲取網(wǎng)站中被禁止爬取網(wǎng)址的信息。對(duì)于被禁止抓取部分的網(wǎng)址,不會(huì)被搜索引擎收錄。
每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序爬蟲(spider)。為了獲取更多的信息,蜘蛛會(huì)通過(guò)順著頁(yè)面上的鏈接來(lái)抓取頁(yè)面。從理論上來(lái)說(shuō),蜘蛛可以通過(guò)鏈接抓取整個(gè)互聯(lián)網(wǎng)上的信息,但是在實(shí)際操作中,考慮到頁(yè)面的復(fù)雜程度,蜘蛛會(huì)采取深度抓取和廣度抓取兩種方式來(lái)進(jìn)行頁(yè)面抓取的工作。為了避免重復(fù)爬行和抓取,搜索引擎會(huì)建立包括已發(fā)現(xiàn)但未被抓取以及已被抓取的兩個(gè)網(wǎng)頁(yè)地址庫(kù)進(jìn)行參考對(duì)比,而被抓取的頁(yè)面會(huì)進(jìn)入原始的頁(yè)面數(shù)據(jù)庫(kù)。到此為止,原始數(shù)據(jù)庫(kù)的建立就告一段落了。
搜索引擎預(yù)處理(索引)階段原理蜘蛛抓取到網(wǎng)頁(yè)后,建立原始數(shù)據(jù)庫(kù),搜索引擎會(huì)對(duì)網(wǎng)頁(yè)進(jìn)行文字提取的處理,當(dāng)然,除了頁(yè)面上顯示的文字外,搜索引擎還會(huì)對(duì)諸如meta標(biāo)簽、flash替代文件,錨文本、alt標(biāo)簽等部分的文字進(jìn)行提取。提取文字完畢,便會(huì)進(jìn)入下一個(gè)階段:分詞。
不管百度算法怎么樣,但是不可否認(rèn)的是,百度的中文分詞技術(shù)在搜索引擎中的霸主地位無(wú)人可以撼動(dòng)。對(duì)于頁(yè)面上抓取到的文字,搜素引擎會(huì)進(jìn)行分詞處理,比如將“十堰網(wǎng)站優(yōu)化”分為“十堰”、“網(wǎng)站優(yōu)化”兩個(gè)部分。而分詞的方法,一般會(huì)有詞典與統(tǒng)計(jì)兩種手段。詞典不需要太多解釋;至于統(tǒng)計(jì),是指通過(guò)分析大量文本從而計(jì)算字與字之間相鄰出現(xiàn)的概率,概率越大,越容易形成一個(gè)詞。百度目前是將兩種方法結(jié)合使用,來(lái)達(dá)到最佳的效果。
說(shuō)到這里,大家會(huì)問(wèn),針對(duì)一些中文中常出現(xiàn)的詞,比如“的”、“了”、“呀”之類沒(méi)有實(shí)際意義但是使用頻率又很高的詞,會(huì)怎么樣處理呢?答案是剔除,從而提高搜索引擎的計(jì)算效率。
在瀏覽網(wǎng)頁(yè)的信息時(shí),我們會(huì)發(fā)現(xiàn),有一些板塊,在網(wǎng)站是重復(fù)出現(xiàn)的,比如“導(dǎo)航”、“廣告”等,這部分東西,對(duì)于所屬頁(yè)面的顯示內(nèi)容來(lái)說(shuō),并沒(méi)有實(shí)際的意義。搜索引擎也會(huì)將此部分內(nèi)容進(jìn)行處理,從而篩選出所收錄頁(yè)面闡述表達(dá)內(nèi)容的最終文字部分。當(dāng)然,文字部分篩選出來(lái)之后,搜索引擎還會(huì)對(duì)各個(gè)網(wǎng)頁(yè)上所顯示的最終文字內(nèi)容進(jìn)行對(duì)比,從而刪除掉重復(fù)的內(nèi)容進(jìn)行顯示。
經(jīng)過(guò)上述的幾個(gè)步驟,就可以建立索引庫(kù)了,此時(shí)的索引會(huì)分為正向索引和倒排索引兩個(gè)階段。正向索引,可以簡(jiǎn)單的理解為將收錄頁(yè)面的網(wǎng)址為主鍵,以該頁(yè)面上進(jìn)行分詞處理之后的結(jié)果為內(nèi)容建立起的數(shù)據(jù)庫(kù),如下圖所示。
正向索引結(jié)束,我們可以發(fā)現(xiàn)還不能用于排名,這時(shí)就需要倒排索引,即以關(guān)鍵詞為主鍵,以包含該關(guān)鍵詞的網(wǎng)址及對(duì)應(yīng)內(nèi)容為內(nèi)容建立索引數(shù)據(jù)庫(kù),如下圖所示。
當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。
專注用戶體驗(yàn)設(shè)計(jì)與開發(fā)
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號(hào)