3.1.4 設置采集內容

<ruby id="exfl6"></ruby>

核心產品

數據采集

自然語言處理

數據分析

大數據配套服務

數據治理

大數據引擎

ForeSpider數據采集引擎

ForeChart可視化圖表

大數據應用

AI輿情監測系統

預薦云數據系統

知析智能分析報告

消費品分析報告

行業分析報告

跨境電商分析報告

大數據底層技術

國產化ForeLib分析型數據庫

國產化ForeServer服務器軟件

國產化KSP大數據開發語言

ForeSpider軟件

ForeSpider數據采集引擎

ForeSpider下載

ForeSpider功能列表

ForeSpider產品優勢

采集服務

定制采集模板

定制數據采集方案

服務器集群采集

AI自動配置成批網站

采集某類特征的數據

采集策略場景化分析

軟件學習

圖文教程

視頻教程

腳本教程

采集模板下載

新聞媒體類

電商平臺類

企業信息類

智能分析

多語言全文檢索

用戶畫像分析

多語言分詞

評價內容解析

典型意見歸納

智能文本分類

特征提取

聯系方式提取

特征信息提取

實體詞提取

智能計算

智能推薦引擎

國產化ForeLib分析型數據庫

國產化ForeServer服務器軟件

國產化KSP大數據開發語言

數據可視化

ForeChart數據可視化引擎

企業關系圖譜

數據分析應用

AI輿情預警系統

知析智能分析報告

消費品分析報告

行業分析報告

跨境電商報告

定制智能分析報告

預薦云數據系統

行業競品分析

電商快消品分析

搜索引擎排名分析

系統集成服務

系統定制開發

營銷方案定制

代碼工具

時間戳轉換工具

進制轉換工具轉碼工具

px轉換vw

顏色轉換

Json格式化工具

Base64轉碼

編碼轉換

郵箱加密

Excel/csv數據轉json格式工具

壓縮和格式化工具

推算日期及計算日期差

密碼生成器

個人所得稅計算

去除重復項

字數統計工具

html轉換成其它語言

面積單位換算

摩斯密碼翻譯器

vw和px之間的批量轉換

正則表達式在線代碼生成工具

智能數據中臺

元數據管理

數據標準管理

主數據管理

數據質量管理

數據資產管理

數據安全管理

數據生命周期管理

行業解決方案

通用解決方案

數據解決方案

金融方案

風控反欺詐

股票量化交易

銀行智控系統

制造業&物流

企業數字化

企業數據治理

醫療方案

政務方案

警務智能決策

政務數據安全

實時監測

輿情監測系統

產品/競品監測系統

股票監測系統

政策監測系統

招投標監測系統

智能分析

行業全息分析

地理信息分析

數據智能挖掘

主題自動分類

挖掘特征信息

全網自動采集

海量網站自動配置

全網挖掘特定信息

場景智慧采集

商品與評論全覽

縱觀金融財經動態

企業工商全方位掌握

精準獲取客戶信息

實時掌控輿情信息

競品情報實時獲取

搜索引擎全網采集

主題識別采集

識別標題語義采集

識別正文主題采集

(不)含特定關鍵詞采集

微信登錄
賬號登錄
手機號登錄

注冊即送：30天知析標訊會員權益

掃碼立即登錄

注冊即送：30天知析標訊會員權益

忘記密碼？沒有賬號立即注冊

注冊即送：30天知析標訊會員權益

忘記密碼？沒有賬號立即注冊

大數據產品

消費品分析報告

行業分析報告

跨境電商報告

聊天機器人

咨詢電話（周一至周五9：00-18：00）

022-2345 2937

185 2247 0110

business@forenose.com

客服QQ：2779623375
前嗅大數據

用戶QQ群3：606835039

用戶QQ群4：795287153

客服微信
qianxiu0106

訂閱號

服務號

ForeSpider

數據采集引擎

教程列表

目錄

3.1.4 設置采集內容

視頻教程：模板下載：

指該字段需要從網頁上獲取的數據內容，在建表時預設，可以重復使用該屬性。也可以在字段配置時單獨設置。

當字段需要存儲頁面的url地址、采集時間、網頁title等內容時，通過選擇對應的采集，就可以自動為該字段賦值。

當某字段存儲的是網頁上的內容數據時，比如文章的標題、聯系人名稱、電話號碼等，通過選擇“選區內全部文本”，再在內置瀏覽器上定位，就可以自動獲取網頁的數據。

序號	采集內容	采集子內容	描述
1	空值/常量	空值/常量	設置字段為某一個值/文本
2	選區內可見文本	選區內全部文本	最常用的類型。點擊Ctrl選擇綠框后，采集選區里的全部內容
		選區最外層節點文本	只取選區內的最外層節點，不取其子節點的內容
		選區最外兩層節點文本	只取選區內最外層節點和其第一級子節點內容
		網頁內文字文本	采集整個頁面中所有可見的文字文本（不包含源碼）
3	主鍵	網頁主鍵	網頁唯一標識
3	主鍵	自增ID主鍵	該字段會按照自增順序自動排序
4	選區節點	選區節點名稱	選區內html代碼中該節點標簽名稱
4	選區節點	選區節點屬性值	采集選區內該節點的屬性值。需要在“標簽屬性”填寫該節點標簽的屬性，多個屬性用“;”隔開
5	網頁代碼/圖片等資源數據	數據流文件	采集圖片、視音頻、文件等
		圖片	采集頁面中位置固定的圖片位置不固定選擇“數據流文件”
		資源數據（pdf、doc...）	采集頁面中位置固定的資源文件。位置不固定選擇“數據流文件”
		網頁全部內容	采集網頁全部文本，包含html標簽等，即整個頁面的源代碼
		選區網頁源碼（包含當前標簽）	采集網頁內所有選區的源代碼（包含當前標簽）
		選區網頁內源碼	采集網頁內所有選區的源代碼
6	網頁信息	網頁地址	自動采集網頁的URL地址
		網頁標題	采集網頁的標題。即網頁<title>中的內容
		文檔數據大小	采集對象的質量大小[單位:字節]
		文檔名稱	采集對象的文件名，如*.html，*.doc
		文檔后綴	文檔的文件名后綴，如html、pdf等
		文檔后綴類型	文檔后綴所對應的文檔類型：如****.pdf是圖片
		文檔視高	文檔的高[如果是圖片數據則為圖片的高]
		文檔視寬	文檔的寬[如果是圖片數據則為圖片的寬]
		文檔層級	自動獲取從入口頁當當前數據頁的跳轉層級數目
		原始網頁地址（基地址）	當網頁的網址重定向時，可以獲取到重定向之前的原始網址。
7	時間信息	網頁創建時間	文檔創建或網頁發布的時間
		網頁更新時間	文檔或網頁更新的時間
		網頁獲取時間	ForeSpider采集該網頁的時間
		當前系統時間	數據采集入庫的時間
8	采集任務信息	任務ID	采集當前頻道的ID
		任務名稱	采集當前頻道的名稱
		任務KEY	外部數據源采集的關聯ID或者關鍵詞采集與關鍵詞相關的KEY
		任務VALUE	外部數據源采集關聯的數據或者關鍵詞采集的關鍵詞
9	分類信息取值	挖掘規則取值	通過分類器進行主題分類時，選取的自動賦值類型。
		分類ID
		分類名稱
		分類路徑
		分類識別詞/規則
		文檔分類ID
		文檔分類名稱
		文檔分類路徑
		文檔分類識別詞/規則
10	高級取值	腳本取值	由用戶自己編寫腳本為字段取值時，選擇該類型。
		模板取值	當前字段的所需數據不在當前頁面在另一頁面時，選擇模板取值，可以用另外一個模板的內容來填充該字段的值。
		事件取值	預留功能

示例：<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>

（1）選區內全部文本

采集選區全部標簽下的內容，即“百度搜索引擎”。

（2）選區最外層節點文本

只采集最外層<ul>節點的文本，不采集<li>和<a>文本，此時采集到的內容為：“百度”。

（3）選區最外兩層節點文本

只采集<ul><li>的內容，不采集<a>的內容，此時采集到的內容為：“百度搜索”。

人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

<ruby id="exfl6"></ruby>