午夜福利院在线观看免费,天堂最新版在线,色噜噜精品一区二区三区,无码一区二区三区中文字幕,丝袜美腿一区二区三区

【科普】百度搜索引擎工作原理

作為seo工作人員,搜索引擎運(yùn)行原理是必須要了解的,包括頁(yè)面質(zhì)量白皮書、搜索引擎優(yōu)化指南,今天重點(diǎn)解讀下搜索引擎整個(gè)工作原理過程分析。

搜索引擎的主要工作過程包括:抓取、存儲(chǔ)、頁(yè)面分析、索引、檢索等幾個(gè)主要過程。也就是常說的抓取、過濾、收錄、排序四個(gè)過程,下面詳解的講解每個(gè)過程,及有哪些影響

一、搜索引擎抓取

Spider抓取系統(tǒng)是搜索引擎數(shù)據(jù)來源的重要保證,如果把web理解為一個(gè)有向圖,那么spider的工作過程可以認(rèn)為是對(duì)這個(gè)有向圖的遍歷。從一些重要的種子 URL開始,通過頁(yè)面上的超鏈接關(guān)系,不斷的發(fā)現(xiàn)新URL并抓取,盡最大可能抓取到更多的有價(jià)值網(wǎng)頁(yè)。

【科普】百度搜索引擎工作原理插圖
搜索引擎工作原理解讀

影響抓取的因素

1、抓取友好性

互聯(lián)網(wǎng)資源龐大的數(shù)量級(jí),這就要求抓取系統(tǒng)盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價(jià)值資源。

2、用抓取返回碼示意

簡(jiǎn)單介紹幾種百度支持的返回碼:

1)最常見的404代表“NOT FOUND”,認(rèn)為網(wǎng)頁(yè)已經(jīng)失效,通常將在庫(kù)中刪除,同時(shí)短期內(nèi)如果spider再次發(fā)現(xiàn)這條url也不會(huì)抓??;

2)503代表“Service Unavailable”,認(rèn)為網(wǎng)頁(yè)臨時(shí)不可訪問,通常網(wǎng)站臨時(shí)關(guān)閉,帶寬有限等會(huì)產(chǎn)生這種情況。

3)403代表“Forbidden”,認(rèn)為網(wǎng)頁(yè)目前禁止訪問。如果是新url,spider暫時(shí)不抓取,短期內(nèi)同樣會(huì)反復(fù)訪問幾次;如果是已收錄url,不會(huì)直接刪除,短期內(nèi)同樣反復(fù)訪問幾次。如果網(wǎng)頁(yè)正常訪問,則正常抓取;如果仍然禁止訪問,那么這條url也會(huì)被認(rèn)為是失效鏈接,從庫(kù)中刪除。

4)301代表是“Moved Permanently”,認(rèn)為網(wǎng)頁(yè)重定向至新url。當(dāng)遇到站點(diǎn)遷移、域名更換、站點(diǎn)改版的情況時(shí),我們推薦使用301返回碼,同時(shí)使用站長(zhǎng)平臺(tái)網(wǎng)站改版工具,以減少改版對(duì)網(wǎng)站流量造成的損失。

3、取優(yōu)先級(jí)調(diào)配

由于互聯(lián)網(wǎng)資源規(guī)模的巨大以及迅速的變化,對(duì)于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統(tǒng)設(shè)計(jì)一套合理的抓取優(yōu)先級(jí)調(diào)配策略。主要包括:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、社會(huì)化分享指導(dǎo)策略等等

4、取反作弊

spider在抓取過程中往往會(huì)遇到所謂抓取黑洞或者面臨大量低質(zhì)量頁(yè)面的困擾,這就要求抓取系統(tǒng)中同樣需要設(shè)計(jì)一套完善的抓取反作弊系統(tǒng)

【科普】百度搜索引擎工作原理插圖1
百度搜索引擎工作原理

對(duì)于網(wǎng)站抓取頻次的斷斷原則

1,網(wǎng)站更新頻率:更新快多來,更新慢少來,直接影響B(tài)aiduspider的來訪頻率

2,網(wǎng)站更新質(zhì)量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對(duì)質(zhì)量是有嚴(yán)格要求的,如果網(wǎng)站每天更新出的大量?jī)?nèi)容都被Baiduspider判定為低質(zhì)頁(yè)面,依然沒有意義。

3,連通度:網(wǎng)站應(yīng)該安全穩(wěn)定、對(duì)Baiduspider保持暢通,經(jīng)常給Baiduspider吃閉門羹可不是好事情

4,站點(diǎn)評(píng)價(jià):百度搜索引擎對(duì)每個(gè)站點(diǎn)都會(huì)有一個(gè)評(píng)價(jià),且這個(gè)評(píng)價(jià)會(huì)根據(jù)站點(diǎn)情況不斷變化,是百度搜索引擎對(duì)站點(diǎn)的一個(gè)基礎(chǔ)打分

二、搜索引擎過濾垃圾內(nèi)容

1, 重復(fù)內(nèi)容的網(wǎng)頁(yè):互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。

2, 主體內(nèi)容空短的網(wǎng)頁(yè)

1)有些內(nèi)容使用了百度spider無法解析的技術(shù),如JS、AJAX等,雖然用戶訪問能看到豐富的內(nèi)容,依然會(huì)被搜索引擎拋棄

2)加載速度過慢的網(wǎng)頁(yè),也有可能被當(dāng)作空短頁(yè)面處理,注意廣告加載時(shí)間算在網(wǎng)頁(yè)整體加載時(shí)間內(nèi)。

3)很多主體不突出的網(wǎng)頁(yè)即使被抓取回來也會(huì)在這個(gè)環(huán)節(jié)被拋棄。

3, 部分作弊網(wǎng)頁(yè)

4、各種過濾,舉例可能包含過濾掉死鏈、重復(fù)數(shù)據(jù)、色情、垃圾結(jié)果以及你懂的;

【科普】百度搜索引擎工作原理插圖2
搜索引擎蜘蛛工作原理

三、如何更好的被收錄,建立索引

哪些網(wǎng)頁(yè)可以進(jìn)入優(yōu)質(zhì)索引庫(kù)呢。其實(shí)總的原則就是一個(gè):對(duì)用戶的價(jià)值。包括卻不僅于:

1,有時(shí)效性且有價(jià)值的頁(yè)面:在這里,時(shí)效性和價(jià)值是并列關(guān)系,缺一不可。有些站點(diǎn)為了產(chǎn)生時(shí)效性內(nèi)容頁(yè)面做了大量采集工作,產(chǎn)生了一堆無價(jià)值面頁(yè),也是百度不愿看到的.

2,內(nèi)容優(yōu)質(zhì)的專題頁(yè)面:專題頁(yè)面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點(diǎn)和評(píng)論,給用戶更豐富全面的內(nèi)容。

3,高價(jià)值原創(chuàng)內(nèi)容頁(yè)面:百度把原創(chuàng)定義為花費(fèi)一定成本、大量經(jīng)驗(yàn)積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。

4,重要個(gè)人頁(yè)面:這里僅舉一個(gè)例子,科比在新浪微博開戶了,即使他不經(jīng)常更新,但對(duì)于百度來說,它仍然是一個(gè)極重要的頁(yè)面。

【科普】百度搜索引擎工作原理插圖3
百度搜索引擎蜘蛛

四、百度搜索引擎排序影響因素

1,相關(guān)性:網(wǎng)頁(yè)內(nèi)容與用戶檢索需求的匹配程度,比如網(wǎng)頁(yè)包含的用戶檢查關(guān)鍵詞的個(gè)數(shù),以及這些關(guān)鍵詞出現(xiàn)的位置;外部網(wǎng)頁(yè)指向該頁(yè)面所用的錨文本等

2,權(quán)威性:用戶喜歡有一定權(quán)威性網(wǎng)站提供的內(nèi)容,相應(yīng)的,百度搜索引擎也更相信優(yōu)質(zhì)權(quán)威站點(diǎn)提供的內(nèi)容。

3,時(shí)效性:時(shí)效性結(jié)果指的是新出現(xiàn)的網(wǎng)頁(yè),且網(wǎng)頁(yè)內(nèi)承載了新鮮的內(nèi)容。目前時(shí)效性結(jié)果在搜索引擎中日趨重要。

4,重要性:網(wǎng)頁(yè)內(nèi)容與用戶檢查需求匹配的重要程度或受歡迎程度

5,豐富度:豐富度看似簡(jiǎn)單卻是一個(gè)覆蓋范圍非常廣的命題??梢岳斫鉃榫W(wǎng)頁(yè)內(nèi)容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。

6,受歡迎程度:指該網(wǎng)頁(yè)是不是受歡迎。

7、終排序,將最能滿足用戶需求的結(jié)果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評(píng)價(jià)、網(wǎng)頁(yè)質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時(shí)效性等

總結(jié):這整個(gè)過程就是搜索引擎抓取到排名結(jié)果頁(yè)的計(jì)算過程,當(dāng)然其中影響排名的因素還有很多,這個(gè)是網(wǎng)頁(yè)分析技術(shù),但網(wǎng)站的總體得分是由每個(gè)網(wǎng)頁(yè)組成,所以說要做好每個(gè)網(wǎng)頁(yè)的細(xì)節(jié)優(yōu)化,做好用戶用戶體驗(yàn),提升網(wǎng)站排名。

給TA打賞
共{{data.count}}人
人已打賞
0 條回復(fù) A文章作者 M管理員
    暫無討論,說說你的看法吧
在線客服
主機(jī)邦
我們將24小時(shí)內(nèi)回復(fù)。
2025-05-17 23:25:39
您好,有任何疑問請(qǐng)與我們聯(lián)系!
您的工單我們已經(jīng)收到,我們將會(huì)盡快跟您聯(lián)系!
取消

選擇聊天工具: