通過點擊按鈕添加鏈接抽取,每個鏈接抽取可以抽取該模板的一類鏈接。每層模板都可以創建多個抽取。例如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。
【添加鏈接抽取】
1.關聯模板
“鏈接抽取”抽出鏈接后,需要采集這些鏈接所在的頁面。我們從這些鏈接中,選擇其中一個作為下一層模板的示例地址,通過關聯模板,可以將兩個模板連接起來,實現頁面的跳轉。
在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同,因此可以完整的采集數據。
【關聯模板】
⑴.關聯方式
①自動關聯:軟件會根據用戶創建模板的情況,幫助用戶自動關聯。
②手動關聯:用戶可在鏈接抽取節點進行手動關聯。
【關聯模板】
⑵.關聯模板的實例
①在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。如模板一的示例地址為:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml
【模板一地址】
②通過模板一示例地址,點擊模板一中任意一條鏈接,進入需要采集數據的頁面,該頁面鏈接即為模板二的示例地址。
【模板二地址】
③所以此時模板一中的鏈接抽取,需要關聯模板二。
【模板關聯】
2.預覽過濾效果
添加鏈接抽取后,點擊軟件右上角的“采集預覽”按鈕,彈出采集預覽結果。在沒有進行過濾的情況下,會采集到該地址下所有的鏈接信息。(如果沒有創建鏈接抽取,就無法看到預覽結果)
【采集預覽】
通過采集預覽可以幫助判斷:
①該頻道是否可以通過可視化采集。
如果沒有任何預覽結果,或者在瀏覽器上有某些鏈接而這里沒有,說明這些鏈接可能是由JavaScript生成的,需要寫腳本才能采集。
②需要過濾哪些鏈接。
網站上會有一些與采集需求無關的鏈接,如“收藏本頁”、“登錄”等,為了提升采集的速度和精度,需要過濾無關的鏈接。通過使用下文介紹的過濾方式來過濾鏈接。