基于關鍵名詞短語聚類的中文搜索結果聚類
 
  目前,搜索結果聚類方法大多數采用基于文檔的方法,不能生成有意義的聚類標簽。為了解決這個問題,提出一種基于關健名詞短語聚類的中文搜索結果聚類方法,該方法將名詞短語、相關搜索詞作為候選聚類標簽,利用C-Value算法、IDF值篩選和簽,然后使用Chameleon算法將標簽聚類,最后將搜索結果劃分到最相關的聚類簇。實驗證明,該方法把關鍵名詞短語和相關搜傣詞作為聚類標簽,有效地提高了標簽的描述性.降低了聚類算法的時間復雜度。
 
  目前大多數搜索引擎的搜索結果按相關度排序后,以線性列表的形式返回給用戶。由于Web的網頁數量巨大,查詢信息不容易用簡短查詢詞組準確表達,導致一次搜索返回的結果過多,尤其是查詢詞為熱門詞、多義詞時,搜索會返回許多低質量的結果,這使得用戶可能用很長時間才能找到自己需要的結果。如果對搜索結果進行聚類,把搜索結果組織成具有層次的類結構,并給每個類賦予一個具有良好描述性的標簽,那么將會大大減少用戶查找自己所需要的結果的時間。
基于關鍵名詞短語聚類的中文搜索結果聚類
  聚類算法按聚類標簽提取的先后可分為基于文檔(document-based)的方法和基于標簽(label-based)的方法。基于文檔的方法,一般采用向量空間模型(VectorSpaceModel,VSM),將搜索結果向量化后,根據向量之間的相似度大小確定是否將它們歸為一類,最后從劃分好的類中提取聚類標簽。這類算法的優點是易于實現,缺點是聚類標簽的質量受聚類準確性的影響,常常產生不可讀的標簽。基于標簽(label-based )的方法,首先從搜索結果中抽取有代表性的詞、短語、片段作為聚類標簽,然后對聚類標簽篩選、聚類,最后將搜索結果劃分到最相關的聚類類別中。這類聚類算法的優點是產生的聚類標簽描述性強、易于理解,難點在于聚類標簽的抽取和篩選。
 
  在借鑒中文術語抽取和文本聚類的基礎上,結合搜索引擎自身的特點,提出了一種基于關鍵名詞短語聚類的中文搜索結果聚類方法。經大量數據分析,發現中文術語基本上都是名詞短語形式,而搜索引擎返回的“相關搜索”能夠補充一些非名詞短語形式的專有詞、新詞,如“熊貓燒香”,因此該文將名詞短語和相關搜索詞作為候選聚類標簽,用C-Value算法和IDF篩選出聚類標簽,最后將聚類標簽的共現信息作為聚類標簽的相似度,用Chameleon算法進行聚類。將關鍵名詞短語和相關搜索詞作為聚類標簽能顯著提高聚類標簽的描述性,而且大大降低了聚類算法的數據維度,提高了聚類算法的效率。
 
  針對搜索結果的聚類問題,提出了一種基于關鍵名詞短語聚類的中文搜索結果聚類方法,實驗證明與基于詞頻的關聯規則相比,該文的聚類標簽質量更好,分類更合理。聚類質量的瓶頸是中文分詞,因為中文分詞是關鍵名詞短語抽取的基礎。未來的工作:引入詞典,對候選聚類標簽中的同義詞、近義詞進行處理,可以有效地提高候選標簽的質量、降低聚類算法的數據維度等。