PC + 手機 + 微信網站(zhàn) + 小(xiǎo)程序 + APP,五端合一
網頁去噪流程:
1) 節點分割。将網頁映射為(wèi)DOM樹(shù), 根據當前DOM節點的信息以及子節點信息進行(xíng)節點分割, 完成信息塊提取。
2) 檢測分割條。首先利用網頁的初始坐(zuò)标和(hé)終止坐(zuò)标作(zuò)為(wèi)初始化分隔條, 然後利用頁面塊與分割條之間(jiān)的位置關系生(shēng)成新的檢測條。
3) 利用分隔條的權值重構語義塊, 沿着分隔條從低(dī)到高(gāo)的方向進行(xíng)叠代合并, 這樣最終将網頁分割成主題相關性很(hěn)高(gāo)的塊的集合。