<ruby id="exfl6"></ruby>
    1. 目錄

        https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D

        一.網站內容

        1.網站截圖說明

        本教程通過“古詩文網”官網來采集所需“關鍵詞”的正文數據,本教程以關鍵詞“相思”為例,故鏈接入口為:   https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D

        在官網輸入關鍵詞“相思”:

         

        2.采集結果截圖

         

         

        二.操作方法

        1.新建任務

         

        ①點擊【采集配置】-【任務列表】中的“+”,新建采集任務。

        ②采集地址中輸入需要采集的網頁地址。

        ③勾選“關鍵詞采集”,此步驟不可省略否則無法獲取我們所需的數據,完成后點擊“下一步”。

        同時采集正文數據和列表鏈接,所以此處需要勾選【抽取鏈接】-【網頁所有鏈接】、【抽取數據】,點擊完成即可。

         

        2.關鍵詞配置

         

        ①選擇【模板抽取配置】-【古詩文網】。

        ②在【關鍵詞配置步驟】-點擊關鍵詞-Ctrl+左鍵“關鍵詞輸入框”,點擊完成。

        ③一般情況就配置完畢了,可以采集預覽看是否成功。如果有些網站仍然沒有結果,需要在【高級設置】中配置關鍵詞參數。

         

        ④配置完成,在關鍵詞列表中輸入“相思”。

        注:在操作過程中可以隨時點擊“保存”,隨時保存進度。

        3.鏈接抽取

         

        ①點擊【模板抽取配置-【鏈接抽?。壕W頁全部鏈接】。

        ②選擇【地址過濾】-過濾方式為“普通過濾”,過濾規則選擇“包含”,過濾詞為“value”。

        ③配置完成后點擊保存。

        4.數據建表

         

        ①選擇【采集配置】-【數據建表】。

        ②在【采集表結構】選擇“+”,新建表結構并自定義名稱,這里取“古詩文”

        根據所需內容,配置表結構字段,此處配置了包括主鍵、詩詞標題、詩句、作者。表結構建立如下:

         

        字段名稱:id

        A.采集內容:選擇“主鍵”,此處選“網頁主鍵”。

        B.數據類型:選擇“長數字”。

        C.字段屬性:選擇“索引字段”、“鍵值唯一”、“主鍵字段”。

         

        字段名稱:title

        A.采集內容:選擇“選區內可見文本”。

        B.數據類型:選擇“字符串”。

        C.數據長度:30。

         

        字段名稱:author

        A.采集內容:選擇“選區內可見文本”。

        B.數據類型:選擇“字符串”。

        C.數據長度:10。

         

        字段名稱:content

        A.采集內容:選擇“選區內可見文本”。

        B.數據類型:選擇“字符串”。

        C.數據長度:10。

        5.關聯數據表

         

        ①選擇新建的“古詩文”,點擊【關聯數據表】-【創建】按鈕。

        ②選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。

        ③創建完成后勾選數據表關聯完成。

         

        6.字段配置

        選擇【古詩文】,在【數據屬性配置】中關聯數據表結構“古詩文”。

         

        ①title字段:

        A.點擊左側【數據抽取】-“title”字段。

        B.Ctrl+左鍵選擇該字段對應的區域。

        C.點擊“確認選區”即可完成。

         

        ②Author字段:

        A.點擊左側【數據抽取】-“author”字段。

        B.Ctrl+左鍵選擇該字段對應的區域。

        C.點擊“確認選區”即可完成。

         

        ③content字段:

        A.點擊左側【數據抽取】-“content”字段。

        B.Ctrl+左鍵選擇該字段對應的區域。

        C.點擊“確認選區”即可完成。

        5.采集預覽

        選擇右上角【采集預覽】即可查看數據采集情況。


        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>