大規模中文搜索日志中查詢重復性分析
 
  分析大規模中文搜索日志中的查詢重復性,通過對查詢重復率和用戶個體查詢重復率等數據的統計發現:查詢串的查詢頻率、文檔的點擊頻率及用戶查詢頻率均符合Zipf分布,查詢重復率較高。查詢歷史越長,查詢重復率越高。高查詢頻率用戶的查詢重復率較高。以上數據為中文搜索引擎的改進提供了有力的依據。
 
  搜索引擎日志中記錄了用戶的查詢和點擊信息。對搜索引擎日志進行分析,從中挖掘出查詢特征和用戶行為規律,能夠為改進搜索引擎效率、提高搜索精度提供依據和指導方向。隨著中文網民數量的增加和中文搜索引擎的發展,對中文搜索引擎中用戶查詢重復性進行統計分析,成為一項非常有意義的工作。大部分現有搜素日志分析工作[’一7}主要分析查詢串長度、查詢頻率分布、用戶平均瀏覽結果頁數、會話長度等,針對查詢重復性的分析較為簡略,一般僅對日志集上的整體查詢重復率進行統計。本文對搜索日志中的重復特征進行了詳細的分析,統計了不同歷史日志天數下日查詢請求中查詢重復率的變化、用戶個體查詢重復率的變化以及不同查詢頻率的用戶的查詢重復率分布。
大規模中文搜索日志中查詢重復性分析
  目前關于Web搜索引擎中查詢重復特征的研究包括:搜索引擎A1taVista中存在較高的查詢重復率,大約有1l3的查詢串在6個星期中被用戶重復使用,Web搜索引擎查詢中具有高度的局部性和重復性,少量查詢串被大量用戶頻繁使用,用戶查詢內容和URL點擊表現出明顯的局部性;對天網中文搜索引擎一天的查詢日志分析指出,日志中查詢串數量滿足Heaps定律,少量查詢串被頻繁查詢;搜狗中文搜索引擎2006年2月份的日志進行了統計分析,發現該日志集中整體查詢重復比例高達91%。這些研究雖然指出了搜索引擎中存在較高的查詢重復率,但它們僅對整體查詢重復率進行了簡單統計。