<ruby id="exfl6"></ruby>
    1. 目錄
        4.1.1 創建新任務
        視頻教程:模板下載:

        通常一個采集源對應著一個任務,如采集人民網,就創建一個任務叫人民網。

        大量網站結構相似的采集源,可以放在同一個任務中,例如要同時采集100個結構相似網站,可以把網址粘到同一個任務的采集地址中。

         


        新建任務


        1.添加任務

        點擊任務列表右側”,新建一個任務。也可以通過右鍵或文件菜單,導入一個任務模板。

         

        添加任務


        2.填寫采集地址

        在彈窗里填寫采集地址任務名稱。

         

        填寫采集地址


        采集地址指的是采集對象的入口地址,即為該網頁鏈接(url地址)。以采集淘寶為例:

        采集整個淘寶網全部商品的信息,淘寶網首頁鏈接就是入口地址。

        只采集“女裝”類別的商品信息,“女裝”首頁鏈接就是入口地址。

        只采集某商品的評論信息,該商品的鏈接地址就是入口地址。

        大多數情況下,采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的,能夠套用同一套采集模板進行采集,可填寫多個采集地址,中間用回車換行分隔。如果不一致,需要創建新的采集任務。


        3.設置采集類型、關鍵詞、登錄

        采集類型分為兩種

        默認(html):采集網站、APP數據時選用。

        本地文件目錄:采集本地文件目錄html和xml數據時選用。

        ③當采集的網站需要關鍵詞檢索時,勾選【關鍵詞采集】。

         


        【選擇關鍵詞采集】


        ④當采集的網站需要登錄后才能采集時,需要勾選手動/自動登錄方式。

         


        【登錄網站】


        4.選擇當前頁面抽取內容

        創建新的任務之后,點擊“下一步”,選擇頁面需要抽取的內容。

         

        【選擇頁面抽取內容】


        根據頁面內容,確定每層模板的抽取目標,每層模板都可以創建多個抽取。

        ①抽取鏈接:需要抽取頁面上的鏈接時,選擇創建鏈接抽取。如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。

        鏈接抽取


        ②抽取數據:需要抽取頁面上的數據時,選擇創建數據抽取。

         


        數據抽取


        例如:

        需要采集新聞的正文數據,當前頁面是新聞首頁,匯集了新聞的鏈接,正文數據是通過點擊新聞鏈接才能進入的,所以本頁面需要選擇“抽取鏈接”中的“鏈接列表”。

        【抽取鏈接】


        點擊“完成”,軟件自動創建對應的抽取內容的模板。

         

        【抽取模板


        軟件預置了一些常見的鏈接頁面場景,此時勾選鏈接列表,軟件會自動建立一個鏈接抽取。如需繼續添加抽取方式,可以自行手動進行添加。如下圖所示:

         

        添加抽取模板


        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>