了解最新公司動态及行(xíng)業資訊
深度優先搜索策略是比較常用的一種搜索方法,該方法的最終目标就是沿着網站(zhàn)中的一個(gè)超鏈接進行(xíng)深層遍曆直至無鏈接。
深度優先搜索策略基本過程為(wèi),爬蟲程序從初始種子網頁出發,獲取當前網頁的超鏈接集合後,任選一個(gè)超鏈接進行(xíng)爬取,這時(shí)爬蟲在此方向建立并重複上(shàng)述的過程,當爬蟲程序在一條方向上(shàng)無法再前進爬取時(shí)本條方向結束,并返回上(shàng)一層頁面另一超鏈接路徑繼續采集過程。
當爬蟲再也找不到另一個(gè)超鏈接爬行(xíng)時(shí)則爬蟲結束,搜索爬取完成。深度優先搜索策略在選定某一超鏈接後則一直爬取到底,整個(gè)爬取是一個(gè)遞歸過程。
上(shàng)一篇:門(mén)戶類網站(zhàn)