您現在的位置:[辽宁35选7]辽宁35选7 > 搜索引擎的網頁搜集

辽宁35选7:搜索引擎的網頁搜集

發布日期:2013-07-17 閱讀次數:1329

網頁搜集,其實就是辽宁35选7小編常說的蜘蛛抓取網頁。那么對于蜘蛛(google稱之為機器人)來說,他們感興趣的頁面分為三類:

  1.蜘蛛從未抓去過的新頁面。

  2.蜘蛛抓去過,但頁面內容有改動的頁面。

  3.蜘蛛抓取過,但現在已刪除了的頁面。

  那么如何行之有效的發現這三類頁面并進行抓取,就是spider程序設計的初衷與目的。那么這里就涉及到一個問題,蜘蛛抓取的起始點。

  每一位站長只要你的網站沒有被嚴重降權,那么通過網站后臺的服務器,你都可以發現勤勞的蜘蛛光顧你的站點,但是你們有沒有想過從編寫程序的角度上來說,蜘蛛是怎么來的呢?針對于此,各方有各方的觀點。有一種說法,說蜘蛛的抓取是從種子站(或叫高權重站),依照權重由高至低逐層出發的。另一種說法蜘蛛爬在URL集合中是沒有明顯先后順序的,搜索引擎會根據你網站內容更新的規律,自動計算出何時是爬取你網站的最佳時機,然后進行抓取。

  其實對于不同的搜索引擎,其抓取出發點定然會有所區別,針對于百度,筆者較為傾向于后者。在百度官方博客發布的《索引頁鏈接補全機制的一種辦法》一文中,其明確指出“spider會盡量探測網頁的發布周期,以合理的頻率來檢查網頁”,由此我們可以推斷,在百度的索引庫中,針對每個URL集合,其都計算出適合其的抓取時間以及一系列參數,然后對相應站點進行抓取。

  在這里,我要說明一下,就是針對百度來說,site的數值并非是蜘蛛已抓取你頁面的數值。比如site命令,所得出的數值并不是大家常說的百度收錄數值,想查詢具體的百度收錄量應該在百度提供的站長工具里查詢索引數量。那么site是什么?這個我會在今后的文章中為大家講解。

  那么蜘蛛如何發現新鏈接呢?其依靠的就是超鏈接。我們可以把所有的互聯網看成一個有向集合的聚集體,蜘蛛由起始的URL集合A沿著網頁中超鏈接開始不停的發現新頁面。在這個過程中,每發現新的URL都會與集合A中已存的進行比對,若是新的URL,則加入集合A中,若是已在集合A中存在,則丟棄掉。蜘蛛對一個站點的遍歷抓取策略分為兩種,一種是深度優先,另一種就是寬度優先。但是如果是百度這類商業搜索引擎,其遍歷策略則可能是某種更加復雜的規則,例如涉及到域名本身的權重系數、涉及到百度本身服務器矩陣分布等。

標簽:網頁搜集
司瓦圖胡經理
技術客服,免費咨詢
技術客服司瓦圖胡經理
司瓦圖網絡自2007年正式注冊成立,目前提供各類平臺系統定制,包括電商平臺開發,微信小程序定制開發,微信平臺定制開發,企業官網制作以及400電話開通等服務!

全國服務熱線4000-522-555周一至周六8:30-18:00

地址:合肥市政務區天瓏廣場5號甲級寫字樓1007-1008室

老張個人微信

老張原創分享

Copyright © 2018 版權所有:合肥司瓦圖網絡科技有限責任公司 ALL Rights Reserved  
皖ICP備07007410號
司瓦圖老張頭像
司瓦圖老張
老張自05年進入互聯網行業,一直從事互聯網平臺開發行業,服務項目主要有:平臺定制開發,電商平臺開發,微信商城,微信小程序等。
司瓦圖老張微信
{ganrao}