<ruby id="exfl6"></ruby>
    1. 目錄
        1.2.3 采集配置思路
        視頻教程:模板下載:

        一.判斷網站結構,確定模板層級

        對需要采集的網站,首先梳理網站的層級結構,以確定在軟件中需要配置幾層模板。

        從網站入口頁到目標數據頁,一共需要跳轉幾層頁面,通常就需要幾層模板。每個模板代表了一個層級的頁面,配置后就可以采集全站數據。以下列舉了幾種常見的層級情況:

        1.一層模板案例

        采集【表格/列表】的數據

        2.兩層模板案例

        通過【鏈接列表】采集【數據詳情】

        采集【鏈接列表】和【數據詳情】的數據

        通過關鍵詞的【檢索列表】采集【檢索結果】

        3.三層及以上模板案例

        從【欄目分類頁】進【鏈接列表頁】采集【數據詳情頁】

        從【商城首頁】進【商品列表頁】采集【商品頁】和【店鋪詳情】

        二.確定每層的抽取目標

        根據頁面內容,確定每層模板的抽取目標,每層模板都可以創建多個抽取。

        ①抽取鏈接:需要抽取頁面上的鏈接時,選擇創建鏈接抽取。如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。

        ②抽取數據:需要抽取頁面上的數據時,選擇創建數據抽取。

        三.抽取鏈接

        1.獲取鏈接

        通常我們需要的并不是頁面的全部鏈接,所以要過濾出我們所需要的鏈接。具體通過三種方式可以實現:智能過濾、定位過濾、地址/標題過濾。

        2.選擇關聯模板

        每個“鏈接抽取”都需要關聯一個模板,將抽取出的鏈接形成完整的跳轉關系。選擇方法:

        選擇下一層級頁面對應的模板,點擊鏈接打開的一層頁面對應的模板。

        ①翻頁的鏈接抽?。宏P聯自身的模板。

        ②其他類型鏈接抽?。和ǔjP聯后一個模板。

        通過模板之間的關聯,可以將網站各層級頁面關聯起來,在軟件中形成與瀏覽器相同的跳轉結構,從而完整的采集數據。

         

        ※判斷鏈接是否可以可視化實現:

        在不進行過濾的情況下,直接采集預覽,出現了目標鏈接。

        ※如果可視化采集不到:

        通過瀏覽器F12工具,配合腳本教程,寫腳本采集。

        或聯系我們。

        四.抽取數據

        1.設計表單結構

        數據采集后存入數據庫,需要設計數據表單結構,可以理解為excel表格中的表頭。ForeSpider中,不同的任務可以使用同一個表結構,創建任意多個數據表。

        2.抽取數據

        采集網頁上的數據,存入設計好的表結構中。獲取方式有三種:

        ①通過定位選區獲取

        選中表單字段后,在網頁中選中對應選區,確認選區。

         



        ②自動獲取預設值:軟件預設了很多采集內容,直接選擇即可獲取到數據。比如采集時間、網頁標題等。

         


        ③腳本獲?。簩τ诳梢暬杉坏降臄祿?,需要編寫腳本。

        五.采集數據

        創建數據表,進行相關的運行設置后,即可采集數據。


        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>