<ruby id="exfl6"></ruby>
    1. 目錄

        以安居客為例,https://tianjin.anjuke.com/sale/?from=navigation

        一.網站內容

        1.網站截圖說明

        本教程以采集“二手房”列表頁鏈接內的正文數據為例,故鏈接入口應該為“二手房”板塊的網址(https://tianjin.anjuke.com/sale/?from=navigation)

        ①點擊官網,找到“二手房”點進進入,如下圖紅框所示。

         

        ②進入“二手房”復制該鏈接,如紅框所示:

         

        2.采集結果截圖

         

         

        二.操作方法

        1.新建任務

        按圖片數字所示,1-2-3完成新建任務的步驟。

         

        點擊“下一步”,需要采集正文數據,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖,最后點擊“完成”即可。

         

        2.鏈接抽取配置

         

        ①內置瀏覽器顯示搜索頁面后,按照提示:ctrl+左鍵單擊文章標題。

        ②點擊【確認選區】按鈕,也可以在右側地址過濾設置過濾規則。

        ③最后點擊右上角的【采集預覽】查看是有內容,如下圖:

         

        3.翻頁配置

         

        采集頁內含其它多鏈接,這時需要將翻頁進行配置,以便將該頁面內所有鏈接內容都可抽取出來。

        按照圖示數據操作:

        ①點擊左側“鏈接抽?。浩胀ǚ摗?/span>

        ②Ctrl+鼠標左鍵點擊“下一頁”

        ③點擊右下角,選擇“標題過濾”,過濾規則選擇“包含”,手動輸入“下一頁”即可。

        4.翻頁采集預覽

        接第3步,點擊右上角【采集預覽】查看是否可生成如下圖的鏈接和數據。

        注:下圖的預覽內含所有下一頁包含的鏈接。

         

        5.數據抽取

        在【新建任務】中輸入的網址只是我們想采集的預覽頁面,具體采集的正文內容(數據)需要進入詳情。

         

        按照圖示數據操作:

        ①雙擊左側紅框位置,可自定義名稱,這里我們取“正文”。

        ②勾選【抽取數據】將對應的層級鏈接復制粘貼到【示例地址】中,最后點擊“下一步”即可完成。(https://tianjin.anjuke.com/prop/view/A1887705624?from=filter&spread=commsearch_p&uniqid=pc5dd256fa182d89.39922172&position=1&kwtype=filter&now_time=1574065914)

        6.配置表結構

         

        如圖示點擊【數據建表】:

        ①點擊“采集配置”-“數據建表”。

        ②點擊“+”,新建表結構并自定義名稱,這里取“安居客”。

         

        根據所需內容,配置表結構字段,此處配置了包括主鍵、房屋信息、房屋編號、發布時間、文章內容等等。表結構建立如下:

         

        字段名稱:hkey

        A.采集內容:選擇“主鍵”。

        B.數據類型:選擇“長數字”。

        C.字段屬性:選擇 “索引字段”、“鍵值唯一”、“主鍵字段”。

         

        字段名稱:suozaixiaoqu

        A.采集內容:選擇“選區內可見文本”。

        B.數據類型:選擇“字符串”。

        C.數據長度:選擇 范圍10-20即可,最后點擊確定。

         

        字段名稱:suozaiweizhi

        A.采集內容:選擇“選區內可見文本”。

        B.數據類型:選擇“字符串”。

        C.數據長度:選擇 范圍10-20即可,最后點擊確定。

        表結構配置字段自定義即可,如有其他需求可按上述類似操作即可。最終呈現如下圖:

         

        7.關聯數據表

        表結構配置完畢后,需要進行數據關聯,操作如下:

         

        選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。

         

        8.字段取值

        操作如下圖所示:

        ①字段:suozaixiaoqu

        A.在左側“安客居”下屬字段中點擊suozaixiaoqu。

        B.找到“所屬小區”對應信息“金城藝術家”并ctrl+左鍵點擊選中該選區。

        C.最后點擊“確認選區”即可。

         

        ②字段:suozaiweizhi

        A.在左側“安客居”下屬字段中點擊“suozaiweizhi”。

        B.找到“所屬位置”對應信息“西青-精武-津來公路,近工一號路”并ctrl+左鍵點擊選中該選區。

        C.最后點擊“確認選區”即可。

         

        注意:主鍵無需確認選區,操作過程中要隨時點擊“保存”,養成良好習慣。

        9.模板預覽

        通過預覽,可以了解配置是否能夠正確地采集到所需正文數據。鼠標右鍵后選擇【鏈接列表】,可以單獨預覽某個鏈接的數據。

         

         



        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>