指該字段需要從網頁上獲取的數據內容,在建表時預設,可以重復使用該屬性。也可以在字段配置時單獨設置。
當字段需要存儲頁面的url地址、采集時間、網頁title等內容時,通過選擇對應的采集,就可以自動為該字段賦值。
當某字段存儲的是網頁上的內容數據時,比如文章的標題、聯系人名稱、電話號碼等,通過選擇“選區內全部文本”,再在內置瀏覽器上定位,就可以自動獲取網頁的數據。
序號 | 采集內容 | 采集子內容 | 描述 |
1 | 空值/常量 | 空值/常量 | 設置字段為某一個值/文本 |
2 | 選區內可見文本 | 選區內全部文本 | 最常用的類型。點擊Ctrl選擇綠框后,采集選區里的全部內容 |
選區最外層節點文本 | 只取選區內的最外層節點,不取其子節點的內容 | ||
選區最外兩層節點文本 | 只取選區內最外層節點和其第一級子節點內容 | ||
網頁內文字文本 | 采集整個頁面中所有可見的文字文本(不包含源碼) | ||
3 | 主鍵 | 網頁主鍵 | 網頁唯一標識 |
自增ID主鍵 | 該字段會按照自增順序自動排序 | ||
4 | 選區節點 | 選區節點名稱 | 選區內html代碼中該節點標簽名稱 |
選區節點屬性值 | 采集選區內該節點的屬性值。需要在“標簽屬性”填寫該節點標簽的屬性,多個屬性用“;”隔開 | ||
5 | 網頁代碼/圖片等資源數據 | 數據流文件 | 采集圖片、視音頻、文件等 |
圖片 | 采集頁面中位置固定的圖片位置不固定選擇“數據流文件” | ||
資源數據(pdf、doc...) | 采集頁面中位置固定的資源文件。位置不固定選擇“數據流文件” | ||
網頁全部內容 | 采集網頁全部文本,包含html標簽等,即整個頁面的源代碼 | ||
選區網頁源碼(包含當前標簽) | 采集網頁內所有選區的源代碼(包含當前標簽) | ||
選區網頁內源碼 | 采集網頁內所有選區的源代碼 | ||
6 | 網頁信息 | 網頁地址 | 自動采集網頁的URL地址 |
網頁標題 | 采集網頁的標題。即網頁<title>中的內容 | ||
文檔數據大小 | 采集對象的質量大小[單位:字節] | ||
文檔名稱 | 采集對象的文件名,如***.html,***.doc | ||
文檔后綴 | 文檔的文件名后綴,如html、pdf等 | ||
文檔后綴類型 | 文檔后綴所對應的文檔類型:如****.pdf是圖片 | ||
文檔視高 | 文檔的高[如果是圖片數據則為圖片的高] | ||
文檔視寬 | 文檔的寬[如果是圖片數據則為圖片的寬] | ||
文檔層級 | 自動獲取從入口頁當當前數據頁的跳轉層級數目 | ||
原始網頁地址(基地址) | 當網頁的網址重定向時,可以獲取到重定向之前的原始網址。 | ||
7 | 時間信息 | 網頁創建時間 | 文檔創建或網頁發布的時間 |
網頁更新時間 | 文檔或網頁更新的時間 | ||
網頁獲取時間 | ForeSpider采集該網頁的時間 | ||
當前系統時間 | 數據采集入庫的時間 | ||
8 | 采集任務信息 | 任務ID | 采集當前頻道的ID |
任務名稱 | 采集當前頻道的名稱 | ||
任務KEY | 外部數據源采集的關聯ID或者關鍵詞采集與關鍵詞相關的KEY | ||
任務VALUE | 外部數據源采集關聯的數據或者關鍵詞采集的關鍵詞 | ||
9 | 分類信息取值 | 挖掘規則取值 | 通過分類器進行主題分類時,選取的自動賦值類型。 |
分類ID | |||
分類名稱 | |||
分類路徑 | |||
分類識別詞/規則 | |||
文檔分類ID | |||
文檔分類名稱 | |||
文檔分類路徑 | |||
文檔分類識別詞/規則 | |||
10 | 高級取值 | 腳本取值 | 由用戶自己編寫腳本為字段取值時,選擇該類型。 |
模板取值 | 當前字段的所需數據不在當前頁面在另一頁面時,選擇模板取值,可以用另外一個模板的內容來填充該字段的值。 | ||
事件取值 | 預留功能 |
示例:<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>
(1)選區內全部文本
采集選區全部標簽下的內容,即“百度搜索引擎”。
(2)選區最外層節點文本
只采集最外層<ul>節點的文本,不采集<li>和<a>文本,此時采集到的內容為:“百度”。
(3)選區最外兩層節點文本
只采集<ul><li>的內容,不采集<a>的內容,此時采集到的內容為:“百度搜索”。