電子商務營銷搜索引擎的精確度優化設計
圖1 精確搜索引擎的基礎框架
 
  一、精確搜索引擎的基礎框架
 
  收集索引和查詢模塊是常規搜索引擎的兩個主要部分。而精確搜索引擎不但這兩個部分,同時增加了分析模塊和ISML 語言標志設計的格式轉換模塊。當前,大多數在互聯網上(Internet)的頁面是使用HTML和XML 編寫的。如果是運用XML 編寫的網頁,高精確度的搜索引擎需要先XML 數據源轉換HTML 文檔格式,然后通過分析儀將它轉換成一個固定網站主題模式,并將這些網站模型通過轉換模塊將ISML 語言標記,這是整個轉換的基本過程和功能模塊。基于電子商務精確搜索引擎模型可以設計成由以下六個模塊組成:即蜘蛛機器人、分析模塊、轉換模塊、解析模塊、索引模塊和查詢模塊[4]。如圖1 所示。
 
  二、精確搜索引擎的實現路徑
 
  信息提取算法、文檔解析算法、規則匹配算法及相關性文檔生成算法是精確搜索引擎設計的主要幾個部分,其構思基本邏輯是通過蜘蛛模塊收集、掌握電子商務銷售網站的相關信息,然后根據規則提取樹模型和信息提取算法對信息進行進一步提取,并在人工注釋的指向下自動學習信息提取規則,實現提高信息提取精度。
 
  HTML 語言文件解析工具是一個HTML 語言的文件結構,該結構是由使用標識有限自動機的狀態轉換圖描述令牌算法,通過HTML 格式標準考慮膨脹的各種類型的節點而設計的。所以,HTML 文件解析工具是一個包括所有的元素層次結構樹且能為自動標記及其他后續工作做準備的集成模塊,它應該要同時能夠實現,提取、標記、分析等功能。詳細如下:
 
  輸入:層次結構樹的結構元素
 
  輸出:XML 文檔或解析HTML 文檔和相關元素的數組
 
  過程:
 
  New Elem (“ROOT”) :
 
  While {CurToken = GetToken ( ) ) //循環獲取HTML 文檔中的Token
 
  {switch (CurToken type)
 
  case COMMENT, PI, CDATA, SECTION, JSTE, PHP, ASP, ENDTAG: CONTINUE;
 
  case DOCTYPE:
 
  //在結構樹根節點的子節點里加入遇到的第一個文件類型
 
  if
 
  InsertElemAtEnd (ElemArray[0],
 
  NewElem (“DOCTYPE”) ) ;
 
  continue;
 
  case else
 
  html = NewElem (“HTML”) ;
 
  if (CurToken 實施標記非HTML 元素)
 
  設置當前的Token 為未被使用標識;
 
  else
 
  復制CurToken. Attributes 的內容到html attributes;
 
  InsertElemAtEnd (ElemArray[0], html) ;
 
  調用ParseHTML 分析HTML 元素的內容;
 
  Exit while;
 
  }}
 
  信息提取算法可以把良好的預處理器鏈標記結構格式標簽。它的設計主要功能是: 要通過提取規則來確認每個格式標簽字符串在相應的內容和鏈匹配中是否一致,同時還要檢查并確認鏈的第一個標簽和提取規則的ID 為0 是否一致。
 
  如< ISML:madefrom ID = 3 / >需求鏈中在當前標簽字符串包含限定符(商品產地:)和中低標簽文本之間的鏈只包含“< /li >”限定符。以此類推,如果鏈和提取規則的字符串可以相互匹配到最后格式標簽,那么則匹配成功;如果匹配不成功,用戶再一次進行文檔標注,同時形成新的規則,這是由系統和規則庫添加到匹配規則,直到最終匹配成功。
 
  此外,因為越多的信息提取會大大增加規則庫的更新頻率,將導致匹配效率低。解決這個問題可以通過規則匹配算法來解決。以下對基本構想作簡要介紹:
 
  構建一個鏈式結構(如圖2),該結構是根據一個根節點為樹形模型的初始狀態,定義標識各個提取信息規則然后先后加入該鏈式結構中,用于匹配信息數據標識,匹配若不成功,就將該匹配失敗的規則后續部分鏈接到前一次匹配成功的節點上,讓程序完成所有匹配指令;匹配若成功,則由鏈式結構繼續匹配后續內容。
 
  該鏈式結構能夠實現大量縮短匹配時間,提高匹配效率的地方在于:在確保每個節點標簽的各路徑的節點表識相互匹配的基礎上,采用深度遍歷搜索路徑的原理,當識別到某條路徑可以形成關聯規則,則系統根據該路徑信息提取相關標簽鏈,然后這些所有別提取的標簽鏈將會比存儲在規則庫中,當發生匹配失敗時就可以在當前節點調取規則庫進行直接再匹配,不用再從頭開始匹配。這種方法當發生海量規則標簽的環境下,其效率優勢將更為明顯。(如圖2 所示)
圖2 鏈式結構匹配