<ruby id="exfl6"></ruby>
    1. 目錄
        6.2.3 加載日志宏
        視頻教程:模板下載:

        篩選符合條件的日志,對采集策略進行補充。通過加載日志宏,可以更加精確的確定下次采集的范圍。


         

        加載日志宏


        支持語法如下:

        1.size:網頁大小

        一般網頁大小過小的網頁,往往是被識別反爬后重定向了,但采集狀態仍然是正確(綠色)的。重采時可以篩選出質量小于一定大小的網頁進行重復采集。

        例如,加載所有網頁大小小于1k的日志:size<1024


                如果采集狀態是ok,但是頁面大小小于1kb,可能是被識別反爬后重定向了,重采時可以篩選出質量小于一定大小的網頁進行重復采集。如驗證碼跳出,則采集到的為驗證碼內容就不會采集正常的網頁內容了。


        2.id:網頁ID

        通過規定網頁ID可以補采某一部分網頁,比如認為數據從哪部分之后有問題了,就補采大于這個網頁ID的日志部分。

        例如,加載網頁大小小于10k并且網頁Id大于100的日志:size<10240 and id>100

        3.pid:來源ID


        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>