基于主題與概率模型的非合作深網數據源選擇
大?。?/span>1.87 MB 人氣: 2017-12-22 需要積分:3
在深網數據集成過程中,用戶希望僅檢索少量數據源便能獲取高質量的檢索結果,因而數據源選擇成為其核心技術.為滿足基于相關性和多樣性的集成檢索需求,提出一種適合小規(guī)模抽樣文檔摘要的深網數據源選擇方法.該方法在數據源選擇過程中首先度量數據源與用戶查詢的相關性,然后進一步考慮候選數據源提供數據的多樣性.為提升數據源相關性判別的準確性,構建了基于層次主題的數據源摘要,并在其中引入了主題內容相關性偏差概率模型,且給出了基于人工反饋的偏差概率模型構建方法以及基于概率分析的數據源相關性度量方法,為提升數據源選擇結果的多樣性程度,在基于層次主題的數據源摘要中建立了多樣性鏈接有向邊,并給出了數據源多樣性的評價方法,最后,將基于相關性和多樣性的數據源選擇問題轉化為一個組合優(yōu)化問題,提出了基于優(yōu)化函數的數據源選擇策略.實驗結果表明:在基于少量抽樣文檔進行數據源選擇時,該方法具有較高的選擇準確率.
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
