<ruby id="exfl6"></ruby>
    1. 目錄
        采集汽車之家論壇數據
        視頻教程:模板下載:
        l 采集網站


        【場景描述】采集汽車之家論壇數據。


        【源網站介紹】汽車之家提供最新汽車報價,汽車圖片,汽車價格大全,最精彩的汽車新聞、行情、評測、導購內容,是提供信息最快最全的中國汽車網站。

        【使用工具】前嗅ForeSpider數據采集系統,免費下載:

        ForeSpider免費版本下載地址

        【入口網址】https://club.autohome.com.cn/JingXuan/0/1

        【采集內容】

        采集汽車之家論壇中帖子的標題、發布時間、發布內容、瀏覽量、評論量等基本信息。

         

         

        【采集效果】如下圖所示:

         


        l思路分析

        配置思路概覽:

         

         

        l配置步驟

        1. 新建采集任務

        選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

         

         

        2.獲取翻頁鏈接

        采用鏈接過濾的方法來抽取翻頁鏈接,具體如下所示:

        ①先觀察翻頁鏈接規律,找到規律,很明顯翻頁鏈接中都包含:https://club.autohome.com.cn/JingXuan/0/

         


        ②設置地址過濾,過濾包含“https://club.autohome.com.cn/JingXuan/0/”的鏈接,這樣就把翻頁鏈接過濾出來了。

         


        ③關聯模板,將翻頁鏈接抽取,關聯模板01。

         

         

        3.抽取列表鏈接

        ①新建一個鏈接抽取,改名為【列表鏈接】,將翻頁鏈接抽取改名為【翻頁鏈接】。

         


        ②使用鏈接過濾的方法來獲取列表鏈接,先采集預覽,打開列表鏈接預覽結果,找到帖子鏈接并觀察規律,發現其中都包括:“https://club.autohome.com.cn/bbs/thread/”

         

         

        ③設置地址過濾,過濾包含“https://club.autohome.com.cn/bbs/thread/”的鏈接,這樣就把翻頁鏈接過濾出來了。

         

         

        4.抽取數據

        ①新建一個抽取模板,在其下新建一個數據抽取,具體操作如下所示:

         

         

        ②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)

         

         

        ③將新建好的數據表,關聯到模板中去,如下圖所示:

         

         

        ④填寫示例數據,采集預覽,復制任意一條新聞鏈接。

         


        ⑤將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接。

         


        ⑥關聯模板

         


        ⑦數據取值

        使用定位取值的方法,title字段如下所示:

         

         

        Pub_time字段如下所示:

         


        其他字段也按照同樣的方法進行定位取值。


        ⑧采集預覽

         能采集預覽到數據,說明配置成功,可以開始數據采集。


         

        采集步驟

        模板配置完成,采集預覽沒有問題后,可以進行數據采集。

        1.建立數據表單

        選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【qczj】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

         

         

        2.開始采集

        選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

         

         

        3.導出數據

        采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

         

         

        導出的文件打開如下圖所示:

         


        本教程僅供教學使用,嚴禁用于商業用途!


        l 前嗅簡介

        前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!



        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>