<ruby id="exfl6"></ruby>
    1. 目錄
        3.1.4 設置采集內容
        視頻教程:模板下載:

        指該字段需要網頁上獲取的數據內容,在建表時預設,可以重復使用該屬性。也可以在字段配置時單獨設置。

        當字段需要存儲頁面的url地址、采集時間、網頁title等內容時,通過選擇對應的采集,就可以自動為該字段賦值。

        當某字段存儲的是網頁上的內容數據時,比如文章的標題、聯系人名稱、電話號碼等,通過選擇“選區內全部文本”,再在內置瀏覽器上定位,就可以自動獲取網頁的數據。

        序號

        采集內容

        采集子內容

        描述

        1

        空值/常量

        空值/常量

        設置字段為某一個值/文本

        2

        選區內可見文本

        選區內全部文本

        最常用的類型。點擊Ctrl選擇綠框后,采集選區里的全部內容

        選區最外層節點文本

        只取選區內的最外層節點,不取其子節點的內容

        選區最外兩層節點文本

        只取選區內最外層節點和其第一級子節點內容

        網頁內文字文本

        采集整個頁面中所有可見的文字文本不包含源碼

        3

        主鍵

        網頁主鍵

        網頁唯一標識

        自增ID主鍵

        該字段會按照自增順序自動排序

        4

        選區節點

        選區節點名稱

        選區內html代碼中該節點標簽名稱

        選區節點屬性值

        采集選區內該節點的屬性值。需要在“標簽屬性”填寫該節點標簽的屬性,多個屬性用“;”隔開

        5

        網頁代碼/圖片等資源數據

        數據流文件

        采集圖片、視音頻、文件等

        圖片

        采集頁面中位置固定的圖片位置不固定選擇“數據流文件”

        資源數據(pdf、doc...)

        采集頁面中位置固定的資源文件。位置不固定選擇“數據流文件”

        網頁全部內容

        采集網頁全部文本,包含html標簽等,即整個頁面的源代碼

        選區網頁源碼(包含當前標簽)

        采集網頁內所有選區的源代碼(包含當前標簽)

        選區網頁內源碼

        采集網頁內所有選區的源代碼

        6

        網頁信息

        網頁地址

        自動采集網頁的URL地址

        網頁標題

        采集網頁的標題。即網頁<title>中的內容

        文檔數據大小

        采集對象的質量大小[單位:字節]

        文檔名稱

        采集對象的文件名,如***.html,***.doc

        文檔后綴

        文檔的文件名后綴,如html、pdf等

        文檔后綴類型

        文檔后綴所對應的文檔類型:如****.pdf是圖片

        文檔視高

        文檔的[如果是圖片數據則為圖片的]

        文檔視寬

        文檔的寬[如果是圖片數據則為圖片的寬]

        文檔層級

        自動獲取從入口頁當當前數據頁的跳轉層級數目

        原始網頁地址(基地址)

        當網頁的網址重定向時,可以獲取到重定向之前的原始網址。

        7

        時間信息

        網頁創建時間

        文檔創建或網頁發布的時間

        網頁更新時間

        文檔或網頁更新的時間

        網頁獲取時間

        ForeSpider采集該網頁的時間

        當前系統時間

        數據采集入庫的時間

        8

        采集任務信息

        任務ID

        采集當前頻道的ID

        任務名稱

        采集當前頻道的名稱

        任務KEY

        外部數據源采集的關聯ID或者關鍵詞采集與關鍵詞相關的KEY

        任務VALUE

        外部數據源采集關聯的數據或者關鍵詞采集的關鍵詞

        9

        分類信息取值

        挖掘規則取值

        通過分類器進行主題分類時,選取的自動賦值類型。

        分類ID

        分類名稱

        分類路徑

        分類識別詞/規則

        文檔分類ID

        文檔分類名稱

        文檔分類路徑

        文檔分類識別詞/規則

        10

        高級取值

        腳本取值

        由用戶自己編寫腳本為字段取值時,選擇該類型。

        模板取值

        當前字段的所需數據不在當前頁面在另一頁面時,選擇模板取值,可以用另外一個模板的內容來填充該字段的值。

        事件取值

        預留功能

        示例:<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>

        1選區內全部文本

        采集選區全部標簽下的內容,“百度搜索引擎”。

        2選區最外層節點文本

        采集最外層<ul>節點的文本,不采集<li>和<a>文本,此時采集到的內容為:“百度”。

        3選區最外兩層節點文本

        只采集<ul><li>的內容,不采集<a>的內容,此時采集到的內容為:“百度搜索”。


        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>