<ruby id="exfl6"></ruby>
    1. 目錄
        4.5.4 鏈接抽取的地址/標題過濾
        視頻教程:模板下載:

        為了在抽取的鏈接中去除無關鏈接,有兩種過濾方式,配置方式相同。

        ①地址過濾:通過url地址的規律,過濾無關鏈接。


         


        選擇地址過濾,過濾方式為普通過濾,過濾規則為包含“/c/7”,過濾出需要的鏈接,最后點擊右上角的【采集預覽】查看是有內容。


         【采集預覽】


        ②標題過濾:通過鏈接標題的規律,過濾無關鏈接。


        1.地址/標題過濾的配置內容


        序號

        名稱

        描述

        1

        過濾方式

         

        ①普通過濾:軟件自帶過濾方式,使用通配符作為過濾串進行過濾。

        ②正則過濾:使用正則表達式進行過濾。

        ③腳本過濾:利用內置腳本過濾字符串,點擊“創建腳本”編寫。

        2

        過濾規則

         

        ①包含:留下“包含過濾串”的鏈接。

        ②排除:留下“不包含過濾串”的鏈接。

        3

        過濾串

        填寫過濾串進行過濾。



        2.過濾串規則說明 


        序號

        過濾符

        含義

        舉例

        1

        ;

        “;”隔開多個過濾串,會過濾掉同時滿足各個過濾串的字符串,表示“與”。

        過濾空鏈接/空標題,過濾串填“;”即可

        2

        ,

        表示“或”。

        過濾**或**,甚至更多項時,在各項之間填寫“,”即可


        規則組合,規則優先

        如果存在多個規則組合情況,將想要優先的規則用()標注,即可優先該規則


        ^

        表示“非”。過濾規則選擇“排除”,“排除非”表示“或”。

        字符串abcde包含a或b:規則選擇“排除”,過濾串填“^a;^b”


        \d

        表示一串(個)數字

        2015-10/26  =>  \d-\d/\d

        123456874 =>\d


        \D

        表示時間、日期

        2015-10/26  => \D


        \X(x)

        16進制數(0~9或A(a)~F(f))

        31  =>  \x1F


        \c

        表示一串(個)小寫字母

        news.xinhuanet.com  =>  \c.\c.\c/\c


        \C

        表示一串(個)大寫字母

        NEWS.XINHUANET.COM  =>  \C.\C.\C


        \s

        表示一串(個)有小寫或大寫字母的字符

        News.XinHuaNet.com  =>  \s.\s.\s


        \S

        表示一串(個)有小寫、大寫字母或數字的字符

        Politics2015-10/26  =>  \S-\d/\d


        \w

        字母、數字、下劃線、減號、$

        Ern8_78wednfn=>\w


        \e

        字符串終止符,表示過濾串后不包括其他文本

        News.XinHuaNet.com  =>  \s.\s.\s\e


        \E

        文件結束(忽略所有請求參數)



        \#

        host過濾當前域名下

        過濾當前域名,過濾串填“\#”即可


        \@

        過濾當前目錄下

        過濾當前目錄下鏈接,過濾串填“\@”即可


        \$

        過濾一級域名

        過濾一級域名,過濾串填寫“\$”即可


        人妻激情偷乱视频一区二区三区,成人片黄网站A毛片免费,午夜福利在线观看,未满十八18禁止免费无码网站

        <ruby id="exfl6"></ruby>