蔡小兵,蔡小兵講師,蔡小兵聯(lián)系方式,蔡小兵培訓(xùn)師-【中華講師網(wǎng)】
資深網(wǎng)絡(luò)營(yíng)銷(xiāo)講師
45
鮮花排名
0
鮮花數(shù)量
蔡小兵: 搜索引擎工作原理分析——SEO十日談之二
2016-01-20 12615
昨天我們聊了SEO的定義,大致知道了SEO的中文意思是“搜索引擎優(yōu)化”,是在研究搜索引擎工作原理的基礎(chǔ)上,對(duì)我們自己的網(wǎng)站進(jìn)行合理的內(nèi)部?jī)?yōu)化與外部?jī)?yōu)化,使網(wǎng)站的關(guān)鍵詞排在搜索引擎的前面,為網(wǎng)站帶來(lái)目標(biāo)流量,產(chǎn)生銷(xiāo)售額與品牌收益。


那么,我們今天就來(lái)分析一下,搜索引擎的工作原理,為我們后期SEO的學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。
一、        搜索引擎是什么時(shí)候誕生的呢?
搜索引擎的誕生,不是一個(gè)偶然,而是一個(gè)必然。因?yàn)?,隨著互聯(lián)網(wǎng)絡(luò)的形成,網(wǎng)絡(luò)上會(huì)出現(xiàn)越來(lái)越的多的網(wǎng)站頁(yè)面。上網(wǎng)的用戶(hù),面對(duì)這么多的信息,就得考慮,怎么去查找我們想要的信息呢?
在幾千年之前,我們的古人就已經(jīng)發(fā)明了“搜索引擎”,比如《本草綱目》,上面有成千上萬(wàn)的藥材條目,為了方便用戶(hù)查找,就在書(shū)的前面加上了“索引目錄”,其實(shí),這就是搜索引擎技術(shù)的一個(gè)思維原形。
1.         早在1993年之前,就出現(xiàn)了算不上搜索引擎的搜索引擎,當(dāng)時(shí)的搜索引擎是查詢(xún)FTP文件服務(wù)器上的相關(guān)文件,還不能搜索網(wǎng)站頁(yè)面文件。
2.         1994年David Filo和楊致遠(yuǎn)共同創(chuàng)辦了超級(jí)目錄索引——人工編緝的雅虎目錄
3.         1998年9月Google公司正式成立!
4.         2001年,百度做為搜索引擎正式上線(xiàn),并提供搜索服務(wù)。
5.         2003年-2009年微軟的搜索引擎成立,并 改名為必應(yīng)——Bing
6.         2004年,8月, Google上市!
7.         2005年,8月,百度上市!
8.         2010年8月25日,雅虎徹底結(jié)束了它自己的搜索時(shí)代,正式使用Bing搜索數(shù)據(jù)。
9.         2010年,8月,國(guó)際上的搜索市場(chǎng),排名第一的谷歌占84%、第二的雅虎占6.35%、第三位的百度占3.31%(主要是因?yàn)橹袊?guó)人品眾多)、第四位是Bing占3.30%(應(yīng)該是第三位)
   時(shí)至今日,主流的搜索引擎,就是上面四個(gè)了。而中文搜索引擎的霸主,當(dāng)然就是百度了,從世界范圍來(lái)看,百度還有很長(zhǎng)的坡要爬,更何況,現(xiàn)如今,各個(gè)中文搜索引擎都在發(fā)力競(jìng)爭(zhēng)中文搜索市場(chǎng)。
 
二、        搜索引擎工作原理的三大步:
第一步:爬行和抓取 :簡(jiǎn)單地說(shuō),就是每個(gè)搜索引擎都會(huì)派出自己的一個(gè)程序(蜘蛛或機(jī)器人),沿著自己知道的網(wǎng)址庫(kù),去跟蹤網(wǎng)頁(yè)上面的所有鏈接,抓取互聯(lián)網(wǎng)上面網(wǎng)站頁(yè)面的HTML數(shù)據(jù),并存入數(shù)據(jù)庫(kù)。當(dāng)然,在這個(gè)過(guò)程中,會(huì)進(jìn)行一次簡(jiǎn)單的去重,也就是將重復(fù)的網(wǎng)頁(yè)內(nèi)容去掉。
這個(gè)步驟里面,有幾個(gè)名詞:
1.         蜘蛛或機(jī)器人指的是搜索引擎編寫(xiě)的一個(gè)小程序,這個(gè)程序的主要任務(wù)是每天多次去互聯(lián)網(wǎng)上的各個(gè)網(wǎng)站上去爬行,看是否有能發(fā)現(xiàn)新的網(wǎng)站,或能否發(fā)現(xiàn)老網(wǎng)站上添加了新的文章內(nèi)容,一旦發(fā)現(xiàn)了新的內(nèi)容,則會(huì)將其拍照,并帶回搜索引擎的數(shù)據(jù)庫(kù)。雖然說(shuō)叫“爬行”,但實(shí)際是,這個(gè)蜘蛛程序是不知疲倦地以光速在互聯(lián)網(wǎng)上穿梭,尋找新的信息。
2.         地址庫(kù):指的存放是蜘蛛程序計(jì)劃去互聯(lián)網(wǎng)訪(fǎng)問(wèn)的網(wǎng)站地址。這就好比你要出遠(yuǎn)門(mén)旅游時(shí),要帶上一本地圖手冊(cè)一樣。
3.         抓取的HTML數(shù)據(jù)是什么樣子呢?你把任何一個(gè)網(wǎng)頁(yè)打開(kāi),在左右兩邊的空白處,點(diǎn)右鍵,“查看源文件”,你看到的這個(gè)內(nèi)容就是HTML數(shù)據(jù),包括了很多代碼和方字。
4.         去重:指的是,互聯(lián)網(wǎng)上,有很多人喜歡把別人網(wǎng)站上的文章,直接發(fā)到自己網(wǎng)站上去。完成相同HTML數(shù)據(jù),搜索引擎是不會(huì)都存到數(shù)據(jù)庫(kù)的。會(huì)將重復(fù)的、相同的網(wǎng)頁(yè)數(shù)據(jù)去掉。
 
第二步:建立索引:就是對(duì)抓取的數(shù)據(jù)做一個(gè)預(yù)處理的過(guò)程。為什么要做預(yù)處理呢?因?yàn)?,剛抓取回的HTML數(shù)據(jù)是不能直接參與排名的,里面有很多代碼和重復(fù)的內(nèi)容。
 
1、首先,將HTML數(shù)據(jù)里的文字與代碼分離。留下文字,去除代碼。這個(gè)可以用站長(zhǎng)工具里的“模擬蜘蛛或機(jī)器人抓取”功能查詢(xún)看到。
2、其次,去除代碼后,看到的就是一堆網(wǎng)頁(yè)里的文字,其次,搜索引擎運(yùn)用自己的一個(gè)相當(dāng)于新華詞典的虛擬詞典,去對(duì)照比較,看這個(gè)網(wǎng)頁(yè)里的文字中,哪些是一個(gè)詞語(yǔ);另一種方法就是基于統(tǒng)計(jì)分析,看哪幾個(gè)字經(jīng)常在一起,則基本可以判斷為一個(gè)詞語(yǔ)。這就叫做中文分詞。
只有把一堆文字,分成一個(gè)一個(gè)的詞語(yǔ),才可以分析出這個(gè)文章跟哪個(gè)詞的相關(guān)性高。
3、再其次,為了更準(zhǔn)確地了解這個(gè)HTML數(shù)據(jù)所反應(yīng)的實(shí)際內(nèi)容,了解這個(gè)內(nèi)容是跟哪些詞相關(guān),還得將網(wǎng)頁(yè)中經(jīng)常出現(xiàn)的高頻率助詞去掉,將網(wǎng)頁(yè)中相關(guān)的頭部和底部,或左側(cè)內(nèi)容去掉,只留下網(wǎng)頁(yè)中的文章正文內(nèi)容。去掉無(wú)關(guān)文章意思的助和和網(wǎng)頁(yè)中重復(fù)的版塊內(nèi)容后,再將這個(gè)文件與其它文件對(duì)比分析,看是否這個(gè)文件,之前是否已收錄過(guò)。
4、然后,建立索引,也就是經(jīng)過(guò)上面的步驟后,分析有哪些關(guān)鍵詞是這個(gè)文件里的核心詞。一個(gè)文件會(huì)重點(diǎn)對(duì)應(yīng)幾個(gè)核心詞建立主索引,建好了這個(gè)主索引后,當(dāng)有用戶(hù)在搜索這個(gè)文件里的主核心詞時(shí),這個(gè)主索引就會(huì)將相應(yīng)的文件展示出來(lái);但是,當(dāng)用戶(hù)在搜索一個(gè)非核心的詞語(yǔ)時(shí),剛才建立的主索引就用不上了。所以,除了主索引外,還得針對(duì)利用分詞技術(shù)分出來(lái)的文件里的所有詞,建立一個(gè)次索引。
5、最后,經(jīng)過(guò)上面的工作后,基本可以判斷抓取的文件內(nèi)容是和哪幾個(gè)關(guān)鍵詞相關(guān),但是,在建立索引時(shí),僅憑文件自身中的一些關(guān)鍵詞的高頻率是不能準(zhǔn)備判斷這個(gè)文件與哪個(gè)關(guān)鍵詞最相關(guān)。文件自身關(guān)鍵詞的頻率是自己可以隨便增加的(在2008年以前,很多做SEO的前輩都是用“關(guān)鍵詞堆砌”的手法來(lái)操作排名),所以,搜索引為了尋找一個(gè)更科學(xué)的方法來(lái)判斷這個(gè)網(wǎng)頁(yè)文件與某幾個(gè)關(guān)鍵詞的相關(guān)性,引入了“鏈接關(guān)系計(jì)算”,通過(guò)從其它網(wǎng)頁(yè)上鏈接到你網(wǎng)頁(yè)的鏈接文字來(lái)判斷,你這個(gè)網(wǎng)頁(yè)是和哪個(gè)詞相關(guān)。
其實(shí),這就好比是美國(guó)選總統(tǒng),首先自己上臺(tái)做競(jìng)選演講,然后讓民眾來(lái)投票。光聽(tīng)自己說(shuō)怎么好,是不科學(xué)的,如果很多人都說(shuō)你好,那才更能說(shuō)明問(wèn)題。鏈接關(guān)系就好比是其它網(wǎng)頁(yè)對(duì)你這個(gè)頁(yè)面的投票評(píng)比。
6、再最后,就是對(duì)抓取文件中的一些特殊文件做處理,比如:除了HTML外,還有PDF、Word、WPS、XLS、PPT、TXT文件等等,目前不能處理圖片、視頻、FLASH、腳本程序。
 
第三步:顯示排名結(jié)果:這個(gè)步驟是我們看得見(jiàn)的,是用戶(hù)直接操作的。
首先,做為用戶(hù),我們?cè)诎俣壤镙斎搿八阉饕鎯?yōu)化培訓(xùn)”,這里百度的搜索程序,第一步要做的不是去索引數(shù)據(jù)庫(kù)里查找相關(guān)文件。
1、               對(duì)“搜索引擎優(yōu)化培訓(xùn)”這句話(huà),做中文分詞處理,確定用戶(hù)搜索的是“搜索”、“引擎”、“優(yōu)化”、“培訓(xùn)”這四個(gè)詞,還是“搜索引擎優(yōu)化培訓(xùn)”這一個(gè)詞。
2、               要將用戶(hù)輸入的這句話(huà)里面的助詞、符號(hào)和無(wú)意義的詞去掉
3、               其次,還會(huì)判斷用戶(hù)輸入的詞中是否有錯(cuò)別字,發(fā)現(xiàn)錯(cuò)字,還得提醒。比如:輸入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。
4、               最后就是開(kāi)始到索引庫(kù)里去查找相應(yīng)信息
其次,搜索引擎開(kāi)始查找用戶(hù)真正想查找的正確的關(guān)鍵詞,找到相匹配的相關(guān)文件,這個(gè)文件的數(shù)量,將是非常巨大的,因?yàn)?,在互?lián)網(wǎng)上,針對(duì)每一個(gè)詞,都會(huì)有N多個(gè)網(wǎng)頁(yè)文件。
不過(guò),搜索引擎不會(huì)將這N多的文件拿來(lái)計(jì)算,應(yīng)該誰(shuí)排在前面。而是在計(jì)算之前先選出一個(gè)了集,百度提供的搜索結(jié)果,最多有76頁(yè)。這樣算來(lái)的話(huà),大概參與最終排名結(jié)果應(yīng)該有700多個(gè)記錄,谷歌提供100頁(yè)的記錄,就也就有1000多個(gè)文件參與某一個(gè)關(guān)鍵詞的排名。
 
再其次,選出這些子集后,這700多個(gè)或者1000多個(gè)文件,倒底哪個(gè)文件應(yīng)該排在前面呢?這就應(yīng)該先分析這個(gè)關(guān)鍵詞在文件中出現(xiàn)的次數(shù),出現(xiàn)的位置,有哪些文字鏈接向這個(gè)文件等等一些方法來(lái)了解文件與某個(gè)關(guān)鍵詞的相關(guān)性。
然后,搜索引擎除了會(huì)跟據(jù)上面說(shuō)的來(lái)計(jì)算相關(guān)性以外,還會(huì)對(duì)某些關(guān)鍵詞做特殊處理,特殊處理,主要是指對(duì)少數(shù)網(wǎng)站做相應(yīng)的懲罰,指的是用不正當(dāng)、不合理的手段,為了獲取排名而做排名的網(wǎng)站。比如:百度11位(百度將你網(wǎng)站的關(guān)鍵詞長(zhǎng)期定格在了第二頁(yè)的第一名也就是自然排名的第11名),、谷歌的負(fù)6、負(fù)30、負(fù)950(也就是將你網(wǎng)站的各個(gè)關(guān)鍵詞統(tǒng)一下降6、30、950位)等算法。
然后,經(jīng)過(guò)了上面步驟以后,就可以顯示用戶(hù)的搜索結(jié)果了,我們可以看到,搜索任何一個(gè)關(guān)鍵詞,看到的每一個(gè)條目里,都可以看到,網(wǎng)站的標(biāo)題(title)、描述(Description
)、百度快照、時(shí)間等等信息。
最后,在上面的步驟里,已經(jīng)提供了用戶(hù)的搜索結(jié)果 ,按道理,整個(gè)搜索過(guò)程已經(jīng)完成,但搜索引搜索的工作還沒(méi)有完成,搜索引擎會(huì)為了節(jié)省用戶(hù)的搜索時(shí)間,而做一個(gè)統(tǒng)計(jì),統(tǒng)計(jì)有哪些詞,是很多用戶(hù)會(huì)經(jīng)常搜索的詞,將這些詞的索引,做一個(gè)緩存。以后,當(dāng)有用戶(hù)搜索這個(gè)詞時(shí),搜索引擎能夠更快速地提供搜索結(jié)果。
后續(xù)服務(wù),搜索引擎為了做好售后服務(wù),它還會(huì)跟蹤用戶(hù)對(duì)某個(gè)排在前面的搜索結(jié)果,做相應(yīng)的點(diǎn)擊次數(shù)、停留時(shí)間的統(tǒng)計(jì),來(lái)分析用戶(hù)對(duì)于搜索引擎的這個(gè)排名結(jié)果,做一個(gè)分析??纯词欠穸枷矚g點(diǎn)擊排在前面的結(jié)果,而且點(diǎn)擊進(jìn)去以后停留很長(zhǎng)的時(shí)間。如果能做到這些,說(shuō)明用戶(hù)是喜歡搜索引擎的這些排名結(jié)果的。反之,搜索引擎會(huì)思考,是否得改變一下排名規(guī)則,將排在后面的,用戶(hù)更喜歡的結(jié)果排到前面來(lái)。
這個(gè)原理也說(shuō)明了,我們網(wǎng)站做了百度競(jìng)價(jià)能提高網(wǎng)站關(guān)鍵詞排名,一旦你不做百度競(jìng)價(jià),有可能你的排名會(huì)下降,只是有可能,并不一定,這個(gè)因素不是影響排名的主要因素。之前聽(tīng)說(shuō)一些客戶(hù),自己不接百度客服的電話(huà),或者說(shuō),自己對(duì)百度客服人員的態(tài)度不好,結(jié)果導(dǎo)致自己網(wǎng)站在百度里搜索不到,說(shuō)是百度人為故意把自己網(wǎng)站刪除了。其實(shí),了解了搜索引擎的工作原理,應(yīng)該知道,這個(gè)人為控制排名的可能性是很小的,因?yàn)榘俣葲](méi)那么多的精力來(lái)關(guān)注你那個(gè)針整個(gè)互聯(lián)網(wǎng)來(lái)說(shuō),一個(gè)微不足道的網(wǎng)站。
 
到此為止,我們了解了搜索引擎的工作原理,我們通過(guò)分析了解搜索引擎的工作原理,無(wú)非就是為了更好地做好SEO。
我個(gè)人認(rèn)為,通過(guò)分析搜索引擎的工作原理,我們至少應(yīng)該明白了,做SEO,應(yīng)該注意以下一些事項(xiàng):
1、               在網(wǎng)絡(luò)上抄襲別人的文章發(fā)到自己網(wǎng)站上去,百度是不會(huì)收錄的。因?yàn)?,在第一步抓取的過(guò)程中,有一次去重。在第二步索引時(shí)又有一次去重,所以重復(fù)的內(nèi)容是很難被百度收錄的。其實(shí),我們?cè)诰W(wǎng)上查資料時(shí),我們自己也很不喜歡看到幾個(gè)網(wǎng)站上都有同一篇文章。
2、               簡(jiǎn)單的,現(xiàn)在的搜索引擎不會(huì)將簡(jiǎn)單的關(guān)鍵詞堆砌的文章排到搜索引擎的前面,還會(huì)利用鏈接關(guān)系來(lái)計(jì)算相關(guān)性。
3、               關(guān)鍵詞在網(wǎng)頁(yè)中的出現(xiàn)的頻次固然重要,關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的位置也很重要。
4、               鏈連關(guān)系計(jì)算時(shí),外部鏈接比內(nèi)部鏈接重為重要。
全部評(píng)論 (0)
熱門(mén)領(lǐng)域講師
互聯(lián)網(wǎng)營(yíng)銷(xiāo) 互聯(lián)網(wǎng) 新媒體運(yùn)營(yíng) 短視頻 電子商務(wù) 社群營(yíng)銷(xiāo) 抖音快手 新零售 網(wǎng)絡(luò)推廣 領(lǐng)導(dǎo)力 管理技能 中高層管理 中層管理 團(tuán)隊(duì)建設(shè) 團(tuán)隊(duì)管理 高績(jī)效團(tuán)隊(duì) 創(chuàng)新管理 溝通技巧 執(zhí)行力 阿米巴 MTP 銷(xiāo)售技巧 品牌營(yíng)銷(xiāo) 銷(xiāo)售 大客戶(hù)營(yíng)銷(xiāo) 經(jīng)銷(xiāo)商管理 銷(xiāo)講 門(mén)店管理 商務(wù)談判 經(jīng)濟(jì)形勢(shì) 宏觀經(jīng)濟(jì) 商業(yè)模式 私董會(huì) 轉(zhuǎn)型升級(jí) 股權(quán)激勵(lì) 納稅籌劃 非財(cái)管理 培訓(xùn)師培訓(xùn) TTT 公眾演說(shuō) 招聘面試 人力資源 非人管理 服裝行業(yè) 績(jī)效管理 商務(wù)禮儀 形象禮儀 職業(yè)素養(yǎng) 新員工培訓(xùn) 班組長(zhǎng)管理 生產(chǎn)管理 精益生產(chǎn) 采購(gòu)管理 易經(jīng)風(fēng)水 供應(yīng)鏈管理 國(guó)學(xué) 國(guó)學(xué)文化 國(guó)學(xué)管理 國(guó)學(xué)經(jīng)典 易經(jīng) 易經(jīng)與管理 易經(jīng)智慧 家居風(fēng)水 國(guó)際貿(mào)易
鮮花榜
頭像
+300朵
頭像
+297朵
頭像
+198朵
頭像
+99朵
頭像
+99朵
頭像
+61朵
頭像
+19朵
頭像
+5朵
頭像
+5朵

Copyright©2008-2025 版權(quán)所有 浙ICP備06026258號(hào)-1 浙公網(wǎng)安備 33010802003509號(hào) 杭州講師網(wǎng)絡(luò)科技有限公司
講師網(wǎng) kasajewelry.com 直接對(duì)接10000多名優(yōu)秀講師-省時(shí)省力省錢(qián)
講師網(wǎng)常年法律顧問(wèn):浙江麥迪律師事務(wù)所 梁俊景律師 李小平律師