基于Wang-Landau抽樣的主題爬蟲方法
電子科技大學(xué)學(xué)報
頁數(shù): 10 2023-07-28
摘要: 針對傳統(tǒng)爬蟲方法存在搜索易陷入局部最優(yōu),且很少考慮結(jié)合歷史爬行經(jīng)驗對爬行路徑進行修正的缺陷,提出一種基于WL抽樣的主題爬行方法。該方法分別使用向量空間模型(VSM)和PageRank算法對鏈接的相關(guān)性和重要性進行評價,采用區(qū)域競爭策略從具有主題相關(guān)或潛在價值的鏈接集合中選出目標鏈接?;诟怕拭芏群瘮?shù),WL抽樣算法對侯選集中選出的目標鏈接進行抽樣判斷,根據(jù)歷史統(tǒng)計經(jīng)驗指導(dǎo)爬蟲的后...