基于網(wǎng)頁(yè)源碼結(jié)構(gòu)理解的自適應(yīng)爬蟲代碼生成方法
計(jì)算機(jī)應(yīng)用
頁(yè)數(shù): 6 2022-09-21
摘要: 針對(duì)網(wǎng)頁(yè)頻繁改版帶來(lái)的網(wǎng)頁(yè)源碼變動(dòng),尤其是文章日期、正文或來(lái)源機(jī)構(gòu)等網(wǎng)頁(yè)源碼中目標(biāo)實(shí)體的元素結(jié)構(gòu)或?qū)傩詷?biāo)識(shí)變動(dòng)所引起的爬蟲代碼失效、人力維護(hù)成本過(guò)高的問(wèn)題,提出一種基于網(wǎng)頁(yè)源碼結(jié)構(gòu)理解的自適應(yīng)爬蟲代碼生成方法。首先,通過(guò)分析網(wǎng)頁(yè)結(jié)構(gòu)特征變動(dòng)規(guī)律提取相應(yīng)爬蟲代碼;然后,利用Encoder-Decoder模型表征網(wǎng)頁(yè)源碼及代碼的變動(dòng),通過(guò)融合網(wǎng)頁(yè)源碼自身結(jié)構(gòu)語(yǔ)義特征、網(wǎng)頁(yè)源碼變動(dòng)特...