您現在的位置:[辽宁35选7]辽宁35选7 > 做SEO的搜索引擎工作原理

辽宁35选7:做SEO的搜索引擎工作原理

發布日期:2013-11-15 閱讀次數:1164

    隨著互聯網的不斷發展,搜索引擎的出現是必然的。猶如,圖書館里的書一樣,收藏的文件、書籍多了,查找起來就會出現困難,就需加強管理與統計,實際上,搜索的很大程度上都來源于傳統文件檢索技術。

    辽宁35选7小編作為SEOer都應該知道,搜索引擎的工作原理過程是非常復雜的,其工作過程大體分為三個階段:

    (1)爬行和抓?。核閹饕嬤┲臚ü倭唇臃夢釋?,獲得頁面HTML代碼,并存入數據庫;

    (2)預處理:索引程序通過對抓取的數據進行文字提取、中文分詞、索引等處理。以備排名程序調用;

    (3)排名:用戶輸入關鍵詞后,排名程序調用數據庫,計算其相關性,然后按一定格式生成搜索結果頁面。

    作為爬行和抓取是搜索引擎的第一步驟,主要完成數據的搜集任務;然而搜索引擎用來爬行和用于訪問頁面的程序被統稱為蜘蛛或機器人;為了抓取網上更多的頁面,蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬行到下一個或多個頁面,就如蜘蛛這個名詞的含義一樣,整個互聯網是有很多相互鏈接的網站和頁面構成;因此,蜘蛛從任何一個頁面出發,都可以順著鏈接爬行網站上所有頁面。其中,蜘蛛的爬行策略也有常見的兩種:深度優化、廣度優化,如圖一所示:做優化的大家都知道用戶體驗度尤為重要,那吸引蜘蛛也是一樣的;無論從它的爬行或者抓取頁面,它所期待的也是網站的新鮮度、內容的更新頻率、網站和頁面的權重、導入鏈接的多少等。搜索引擎的地址庫也是我們需要去了解的,地址庫的來源可以分為三種:人工錄入種子網站、蜘蛛自動抓取頁面、站長通過搜索引擎頁面提交表格進來的網址,想要網站排名的好,其中蜘蛛自動抓取頁面是最好的方法。

    圖一 蜘蛛的爬行策略

    想必蜘蛛爬行抓取過后接下來的是后臺完成預處理,這是用戶搜索時感覺不到的過程。現在搜索引擎還是以文字內容為基礎,蜘蛛抓取頁面中的HTML代碼進行提取文字,這點可看出,頁面中無論是在加META標簽、圖片、flash文件、鏈接錨文本時都應加上文字來描述,以達到蜘蛛能讀取相應的文字來抓取圖片等。從而,搜索引擎儲存和處理頁面時都是以詞為基礎的,因此中文分詞也有兩種基本方法:一種是基于詞典匹配,另外一種是基于統計,在這兩點上很大程度百度搜索比谷歌搜索好的多。搜索引擎在索引頁面時會去掉一些停止詞,停止詞包括助詞得、的、地,感嘆詞啊、哈、呀,副詞或介詞從而、已、卻;從而減少多余的計算量。接下來是消除噪聲和去重,在網站上大量重復出現的區塊往往屬于噪聲;同一篇文章重復出現在不同網站或者同一網站的不同網址上,搜索引擎是不喜歡重復性內容。

    作為最后一個步驟排名,經過搜索引擎自動抓取的頁面,索引程序計算得到倒排索引后,搜索引擎就可以處理用戶搜索了。簡單的可以這樣理解其他的工作程序與預處理相反;預處理是如何存取文字和分詞、索引的,排名就是如何調用數據庫的數據進行計算排名的。

標簽:搜索引擎
司瓦圖胡經理
技術客服,免費咨詢
技術客服司瓦圖胡經理
司瓦圖網絡自2007年正式注冊成立,目前提供各類平臺系統定制,包括電商平臺開發,微信小程序定制開發,微信平臺定制開發,企業官網制作以及400電話開通等服務!

全國服務熱線4000-522-555周一至周六8:30-18:00

地址:合肥市政務區天瓏廣場5號甲級寫字樓1007-1008室

老張個人微信

老張原創分享

Copyright © 2018 版權所有:合肥司瓦圖網絡科技有限責任公司 ALL Rights Reserved  
皖ICP備07007410號
司瓦圖老張頭像
司瓦圖老張
老張自05年進入互聯網行業,一直從事互聯網平臺開發行業,服務項目主要有:平臺定制開發,電商平臺開發,微信商城,微信小程序等。
司瓦圖老張微信
{ganrao}