垂直搜索引擎的體系結構
 
  垂直搜索引擎(主題搜索引擎)主要目標在于構造面向某一主題領域或學科內容的因特網數據資源庫、自主地在網絡環境中爬取滿足指定專題或科目范圍需要的數據。為行業專家、專業機構、學科門戶網站、指定行業等用戶群,提供一整套互聯網信息資源的服務方案。
垂直搜索引擎的體系結構
 
  一、垂直搜索引擎的基本原理
 
  對于全文搜索,利用爬蟲對其預先進行一個或者一定地址范圍內網站的定義、由爬蟲內容抓取模塊從該提前設定的初始網站開始,進行網頁內容的抓取收集,沿著指定的單個(或多個)初始網站上的URLs進行不停的鏈接間的跳轉,并重復該步驟爬蟲所抓取的網頁。要先進行頁面相關度的分析,根據在分析模塊中給定的算法進行計算分析,將其所得結果添加到結果數據庫中:搜索引擎根據關鍵詞在數據庫中匹配出所有.與搜索主題相關網頁,再根據引擎中預設的規則,將用戶索引所得的網頁信息以列表的形式展示出來。
 
  系統的基本結構主要由信息、采集模塊、數據組織模塊以及用戶查詢模塊組成.
 
  (1)信息采集模塊:該模塊主要完成從Internet上發現Web站點和URLs并對其進行采集的功能:
 
  (2)數據組織模塊:該模塊主要是對采集到的信息進行分析、處理,使搜索數據主題關聯性大.在用戶檢索中提供相對應的索引規范,同時為該主題建立對應的索引數據庫_
 
  (3)用戶查詢模塊:該模塊的作用是提供用戶查詢關鍵詞的輸人、查詢結果的顯示等功能
 
  二、主題蜘蛛
 
  爬蟲是搜索引擎中的重要組成部分,是一個自主處理網頁信息并對信息進行爬取的程序仁:垂直型搜索引擎與綜合型搜索引擎相比,最突出的區另!}在于垂直型搜索引擎主要側重于面向特定主題范圍.因而適用于它的爬蟲僅爬行于指定領域內容網頁的信息,與主題相關性越小的網頁越容易被摒棄,將這類的程序稱為主題蜘蛛(或主題爬蟲、聚焦爬蟲)。它會在數據搜索的同時對URLs進行判斷與識別,分析待爬行的頁面是否為與設定的主題相關網站。主題爬蟲的主要目的在于可以盡可能少地遍歷網站中的鏈接,盡可能多地在與預設主題內容相關的網頁間爬行。
 
  主題蜘蛛需對頁面相關度進行分析,使主題相關度高的網頁優先下載,通常使用一些相關度分析的評價算法,如面向網頁內容評價算法、基于鏈接相關度的評價算法等。首先等待待下載URL進行與預設主題相關程度的預估,先不對網頁進行下載,分析預判頁面內包含的或周邊相關的已知信息對URL進行篩選,即計算網頁與主題的相關程度。將目標網頁下載到本地,然后使用主題判斷方法對目標頁面的主題關聯值進行計算,若數值低于某一閥值的網頁將不進人爬取數據庫。