搜尋引擎分類及特點分析

隨著信息技術的發展,網絡的推廣應用,搜尋引擎在網絡用戶的生活中起著舉足輕重的作用,本文就全文搜尋引擎、目錄搜尋引擎和元搜尋引擎做分析比較,並對目前的搜尋引擎的特點進行了詳細描述。

方法/步驟

搜尋引擎的工作原理為:從網際網路上抓取網頁→建立索引資料庫→在索引資料庫中搜尋排序。從網際網路上抓取網頁利用能夠從網際網路上自動收集網頁的Spider系統程序,自動訪問網際網路,並沿著任何網頁中的所有URL爬到其它網頁,重複這過程,並把爬過的所有網頁收集回來。建立索引資料庫由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息根據一定的相關度算法進行大量複雜計算,得到每1個網頁針對頁面內容中及超鏈中每1個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引資料庫。

在索引資料庫中搜尋排序當用戶輸入關鍵詞搜尋後,由搜尋系統程序從網頁索引資料庫中找到符合該關鍵詞的所有相關網頁。最後由頁面生成系統將搜尋結果的連結地址和頁面內容摘要等內容組織起來返回給用戶。搜尋引擎按其工作方式可分為三種,全文搜尋引擎,目錄搜尋引擎和元搜尋引擎。

1、全文搜尋引擎
  全文搜尋引擎的代表是網絡爬蟲,網絡爬蟲是一個自動提取網頁的程序,它為搜尋引擎從Internet網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析算法過濾與主題無關的連結,保留有用的連結並放入等待抓取的URL隊列。然後,它將根據一定的搜尋策略從隊列中選擇下一步要抓取的網頁,並重複上述過程,直到達到系統的某一條件時停止。所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。

爬蟲設計是否合理將直接影響它訪問Web的效率,影響搜尋資料庫的質量,另外在設計爬蟲時還必須考慮它對網絡和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度較慢的目標站點,可能導致該站點出現阻塞。Robot應遵守一些協議,以便被訪問站點的管理員能夠確定訪問內容,Index是一個龐大的資料庫,爬蟲提取的網頁將被放入到Index中建立索引,不同的搜尋引擎會採取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內容,還有的能處理HTML文件中的META標記或特殊標記。

2、目錄搜尋引擎
  目錄搜尋引擎的資料庫是依靠專職人員建立的,這些人員在訪問了某個Web站點後撰寫一段對該站點的描述,並根據站點的內容和性質將其歸為一個預先分好的類別,把站點URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜尋軟體只在這些描述中進行搜尋。很多目錄也接受用戶提交的網站和描述,當目錄的編輯人員認可該網站及描述後,就會將之添加到合適的類別中。

目錄的結構為樹形結構,首頁提供了最基本的入口,用戶可以逐級地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜尋功能直接查找一個關鍵詞。由於目錄式搜尋引擎只在保存了對站點的描述中搜尋,因此站點本身的變化不會反映到搜尋結果中,這也是目錄式搜尋引擎與基於Robot的搜尋引擎之間的區別。分類目錄在網絡推廣中的應用主要有下列特點。

通常只能收錄網站首頁(或者若干頻道),而不能將大量網頁都提交給分類目錄;網站一旦被收錄將在一定時期內保持穩定;無法通過"搜尋引擎優化"等手段提高網站在分類目錄中的排名;在高質量的分類目錄登錄,對於提高網站在搜尋引擎檢索結果中的排名有一定價值;緊靠分類目錄通常與其他網站推廣手段共同使用。

3、元搜尋引擎
  我們可將元搜尋引擎看成具有雙層客戶機/伺服器結構的系統。用戶向元搜尋引擎發出檢索請求,元搜尋引擎再根據該請求向多個搜尋引擎發出實際檢索請求,搜尋引擎執行元搜尋引擎檢索請求後將檢索結果以應答形式傳送給元搜尋引擎,元搜尋引擎將從多個搜尋引擎獲得的檢索結果經過整理再以應答形式傳送給實際用戶。當然,某些元搜尋引擎具有略微不同的機制。元搜尋引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜尋,將結果進行相關處理,以整體統一的格式反饋給用戶。

它的特點是本身並沒有存放網頁信息的資料庫。多數元搜尋引擎在處理其它的搜尋引擎返回結果時,只提取出每個搜尋引擎的結果中考前的條目,然後將這些條目合併在一起返回給用戶,元搜尋引擎實現起比較簡單,但是它也有一定的局限性,例如多數元搜尋引擎都只能訪問少數幾個搜尋引擎,並且通常不支持這些搜尋引擎的高級搜尋功能,在處理邏輯查詢時也常常會出現錯誤。在這幾種檢索工具中,目錄式搜尋引擎成本高,信息t少的缺點,但它的信息準確這一優點使其在一定的領域和時間內仍會被使用,機器人搜尋引擎是當前各種搜尋引擎的主流,但隨著網絡信息量的增加,單一搜尋引擎已經難已滿足要求,結合目錄式搜尋引擎,機器人搜尋引擎的優勢,以元搜尋引擎為核心的多層代理搜尋引擎是搜尋引擎的發展方向。

搜尋引擎技術功能強大,提供的服務也全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發展成為用戶首選的Internet入口站點。目前的搜尋引擎主要有幾個特點:多樣化和個性化的服務。強大的查詢功能。目錄和基於Robot的搜尋引擎相互結合。目前搜尋引擎是網絡上被使用頻率最高的服務項目之一,隨著Internet的發展,網上龐大的數位化信息和人們獲取所需信息能力之間的矛盾突出。搜尋結果豐富的搜尋引擎技術正在被信息更集中的區域網取代,因為搜尋系統的表現與用戶的期望值相差太大,諸如數據量高速增長的視頻、音頻等多媒體信息的檢索,仍然無法實現。

搜尋引擎越來越不能滿足用戶的各種信息需求,如收集的網頁數量和其資料庫的更新速度存在著不可調和的矛盾。用戶經常無法打開查詢的結果。網絡信息時刻變動,實時搜尋幾乎不可能。網絡信息收集與整理是搜尋引擎工作的重要部分。搜尋引擎需要定期不斷地訪問網絡資源。目前網絡帶寬不足,網絡速度慢,遍歷如此龐雜的網絡時間花費非常龐大,這就是不能實時搜尋的原因。

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場