通配符演算法
Ⅰ 什麼是通配符 這道題是什麼意思、、請高手解釋一下、、
通配符是一種特殊語句,主要有星號(*)和問號(?),用來模糊搜索文件。當查找文件夾時,可以使用它來代替一個或多個真正字元;當不知道真正字元或者懶得輸入完整名字時,常常使用通配符代替一個或多個真正的字元。 實際上用「*Not?paOd」可以對應Notpad\MyNotpad【*可以代表任何文字】;Notpad\Notepad【?僅代表單個文字】;Notepad\Notepod【ao代表a與o里二選一】,其餘以此類推。
Ⅱ 通配符到底是怎麼算的啊
子網掩碼?怎麼問到這里來了。
你給出的結果不對吧,子網掩碼的計算是位反運算,最簡單的例子:
255.255.255.0 匹配256個(其中一個無效)
255.255.255.254 匹配2個
Ⅲ 在Word編輯中,模式匹配查找中能使用的通配符是
在Word編輯中,模式匹配查找中能使用的通配符是:*和?。
模式匹配,數據結構中字元串的一種基本運算,給定一個子串,要求在某個字元串中找出與該子串相同的所有子串,這就是模式匹配。
假設P是給定的子串,T是待查找的字元串,要求從T中找出與P相同的所有子串,這個問題成為模式匹配問題。P稱為模式,T稱為目標。如果T中存在一個或多個模式為P的子串,就給出該子串在T中的位置,稱為匹配成功;否則匹配失敗。
(3)通配符演算法擴展閱讀
演算法思想:從目標串的的第一個字元起與模式串的第一個字元比較,若相等,則繼續對字元進行後續的比較,否則目標串從第二個字元起與模式串的第一個字元重新比較,直至模式串中的每個字元依次和目標串中的一個連續的字元序列相等為止,此時稱為匹配成功,否則匹配失敗。
若模式子串的長度是m,目標串的長度是n,這時最壞的情況是每遍比較都在最後出現不等,即沒變最多比較m次,最多比較n-m+1遍,總的比較次數最多為m(n-m+1),因此樸素的模式匹配演算法的時間復雜度為O(mn)。
樸素的模式匹配演算法中存在回溯,這影響到匹配演算法的效率,因而樸素的模式匹配演算法在實際應用中很少採用。在實際應用主要採用無回溯的匹配演算法,KMP演算法和BM演算法均為無回溯的匹配演算法。
Ⅳ 基於規則的query分析
通常某類需求的query需要用多種模板來概括,於是就需要對多種模板進行統一管理,本次升級是對前面lexparser的演算法進行了比較大的改進,使得在大規模詞典數據的情況下,分析效率得到提升,以滿足線上大數據量情況下的實時運算。同時把十分常用的通配符功能加入演算法中,滿足不同應用方的需求。
構造一棵trie樹形結構,樹中的每一個節點代表一個狀態:根節點代表初始狀態,葉節點代表一次成功的匹配,而中間節點則代表匹配的過程的中間狀態。從一個節點到其子節點的邊,稱為狀態轉移條件,共分為四種類型:模板詞,固定詞,函數以及可忽略詞。
這個樹形結構的示意圖如下:
對於模板:[D:huilv_貨幣][F:num][D:huilv_等於][D:huilv_貨幣],他在這棵樹中的狀態轉移路徑如下:1-2-8-10-14 。
針對這一步驟的思路是:從當前query中匹配出可能的前綴詞,通過這個前綴詞的類型來確定狀態轉移。例如:從當前query匹配出的前綴詞是「北京」,那麼毫無疑問,下一個狀態轉移類型會是模板詞中的[D:train_地名];若前綴詞是「美元」,那麼顯然,下一狀態轉移類型會是模板詞中的[D:huilv_貨幣]。
因此,問題的重點就轉移到前綴詞的匹配了。匹配前綴詞所採用的方法依舊是基於trie樹的,樹中的每一個節點代表一個狀態:根節點代表初始狀態,葉子節點代表前綴匹配成功,中間節點代表匹配過程的中間狀態。從節點到其子節點的邊即是轉移條件,具體地說就是詞語中的單個漢字。
這個字典樹的示意圖如下:
假設當前詞庫中有三個詞:三江,三江口,三江縣。那麼構建出的字典樹即如下所示:
三江:1-2-6
三江口:1-2-6-7
三江縣:1-2-6-8
綜上所述,假設當前query是:「三江口到三江的火車」,整個匹配流程如下:
整個過程抽象的來說就是:
通配符形式如下:[W:2-10] 表示匹配任意2-10個位元組字元
實現大體思路:在走模板樹的每個節點時,設當前query長度為len,如果這個節點上有通配符[W:2-10],則截取2-10長度後,再分別遞歸遍歷。
Ⅳ 截詞符 通配符 邏輯演算法的查全率誰最高
邏輯運算又稱布爾運算 布爾用數學方法研究邏輯問題,成功地建立了邏輯演算。他用等式表示判斷,把推理看作等式的變換。這種變換的有效性不依賴人們對符號的解釋,只依賴於符號的組合規律 。這一邏輯理論人們常稱它為布爾代數。20世紀30年代,邏輯代數在電路系統上獲得應用,隨後,由於電子技術與計算機的發展,出現各種復雜的大系統,它們的變換規律也遵守布爾所揭示的規律。邏輯運算 (logical operators) 通常用來測試真假值。最常見到的邏輯運算就是循環的處理,用來判斷是否該離開循環或繼續執行循環內的指令。
Ⅵ 判斷兩個字元串是否匹配,其中字元串中包括通配符*或(串)。*代表0個或多個字元代表一個字元
給你一個用遞歸演算法寫的字元串匹配函數,
非常精練,你可以參考一下,希望能看懂。
輸入:
s,指向含通配符的匹配字元串,
d,指向要匹配的字元目標
返回值:
1,匹配一致
0,不能匹配
int StrMatch(const char *s,const char *d)
{ for(;*s;s++,d++)
{ if(*s=='*')
{ for(s++;;d++)
{ if(StrMatch(s,d))return 1;
if(*d==0)return 0;
}
}
if(*d==0)return 0;
if(*s!='?'&&*s!=*d)return 0;
}
return !(*d);
}
Ⅶ 一百的百分之一是多少
百分之一是0.01。演算法:1÷100=0.01。
%是百分號,它的含義是:把某個整體平均分為100份,其中一部分佔有的份數,即一個分數分母是100時的表示方法,也可以寫成x/100。
分析:百分之一,可寫作:1%,它所表示的是一個分數,分數的分母是100,分子為1。
則:1%=1/100=0.01。
同理:如32%表示的是一百分之三十二,它相當於一個分母為100,分子為32的分數,換算成小數相當於小數:0.32。
(7)通配符演算法擴展閱讀:
既然有百分號,也有:千分號、萬分號。
1、千分號就是在百分號的基礎上再加一個圓圈,如圖:‰ 這個就是千分號。
2、萬分號和千分號的道理是一樣的,再加個圓圈:‱。
以此類推,億分號可想而知。但一般百分號、千分號用的比較多,萬分號乃至億分號很少見,依此類推,這些符號就不簡練了,不如直接寫萬分之幾、億分之幾方便。
百分號%在計算機領域中應用是很廣泛的。計算機中的通配符(wildcard)是一類鍵盤字元,其中包括星號(*)、問號 (?)和百分號(%)等,當進行網路或文件查找不知道真正字元或者不想鍵入完整單詞時,可以使用它來代替真正字元或完整的單詞。
參考資料:網路-百分號
Ⅷ DPDK ACL演算法介紹
DPDK提供了三種classify演算法:最長匹配LPM、精確匹配(Exact Match)和通配符匹配(ACL)。
其中的ACL演算法,本質是步長為8的Multi-Bit Trie,即每次可匹配一個位元組。一般來說步長為n時,Trie中每個節點的出邊為2^n,但DPDK在生成run-time structures時,採用DFA/QRANGE/SINGLE這幾種不同的方式進行數據結構的壓縮,有效去除了冗餘的出邊。本文將為大家介紹ACL演算法的基本原理,主要內容包括:trie樹的構造、運行時的node array生成和匹配原理。對於ACL介面的使用,參考DPDK的官方文檔即可。
ACL規則主要面向的是IP流量中的五元組信息,即IP/PORT/PROTO,演算法在這個基礎上進行了抽象,提供了三種類型的匹配區域:
熟悉這三種類型的使用後,完全可以用它們去匹配網路報文的其它區域,甚至將其應用到其它場景中。
具體來說,rte_acl_field_def有5個成員:type、size、field_index、input_index、offset。
如果要深入理解演算法,可以思考這幾個欄位的意義,或者換個角度來看:
對於規則的定義,要注意如下兩點:
比如定義了5個field,那麼請給出每一個的具體定義:
像field[1]中IP和mask都為0,表示匹配所有的IP地址;field[3]中range由0到65535,表示匹配所有。類似這樣的全匹配一定要顯示的定義出來,因為如果不明確定義,這些欄位的值取決於編譯器的,最後編譯的ACL規則很可能與原有設想存在偏差。
如果在規則中,對於某個field不進行限制,對於不同type的field,規則書寫時有一定差異:
對於BITMASK和MASK類型,全0代表匹配所有,如上例中的field[0]、field[1];
對於RANGE,則按照上述field[3]中的形式定義。
規則定義好後,會轉換為trie樹並最終合並到一起。
實際處理過程中,build_trie函數會自底向上的將rule中的每個field轉換為node,然後將這些node合並生成這條rule的trie,最後將這個trie與已有的trie進行merge,最終生成整個rule set的trie。
tire由node組成,其主要數據成員如下:
node中values成員用於記錄匹配信息,ptrs則用於描述node的出邊,用於指向轉換後的node。
values採用bitmap進行壓縮,其數據結構為struct rte_acl_bitset values; 一個byte取值范圍是[0,255],可通過256個bit位來進行對應,並實現byte值的快速查找:即通過第x位的bit值是否為1來判斷是否包含數值x(0 <= x < 256)。
num_ptrs用於描述出邊數目,ptrs即為實際的出邊,它記錄了其匹配值values和匹配後的節點指針。
match_flag和mrt則用於記錄匹配結果,trie樹中葉子節點一定是記錄匹配結果的節點。
trie樹其詳細結構比較復雜,這里將其結構進行簡化,如下所示:
上圖的trie樹有4個node,通過ptrs進行指向,values欄位為匹配值的bitmap表示,為了表述的簡潔,後續會採用simple的方式進行描述。
在trie simple中,實心節點表示匹配節點,邊上的數字代表匹配值(為便於閱讀,採用實際值而不再是bitmap形式),…代表其它匹配值。
不同type的field,轉換為node的方式會有所不同。
目前提供的3種類型:BITMASK描述一個byte的匹配,支持mask模式;MASK用於描述4個byte的匹配,支持mask模式;RANGE描述2個byte的匹配,此時mask表示上限。
field到node的轉換,見build_trie中的for循環,具體轉換函數則參考:
對於BITMASK,如{.value.u8 = 6, .mask_range.u8 = 0xff,},它最後的轉換形式如下:
構造field的node時,總會在結尾添加一個空的end節點,最後一個field除外(它是match node)。在for循環中每完成了一個field的解析後,會將其合並到root中,從而生成這個rule的trie。
合並前,也會先構造一個空的end node(見build_trie函數中,while循環下的root創建),讓它與field構成的node頭合並,因為不相交,所以merge時會將匹配信息合並到end node並釋放原有的頭,並將field鏈的end節點返回(保存到end_prev中),下次合並時,就用此end節點與新的node頭合並。
循環遍歷完所有的field後,這些node就串聯起來了,構成這個rule的trie。
對於多個rule,每次構造完成後會merge到整體的trie中。
這里詳細介紹下merge演算法原理,其實仔細閱讀acl_merge_trie函數的注釋即可。
對於node A和node B的merge, acl_merge_trie函數返回一個節點,這個節點指向它們路徑的交集。
這里給出三個例子用於展示merge前後的變化。為了減少狀態點,構造rte_acl_field_def如下:
示例1:
acl_rules[1]為trie A,acl_rules[0]對應trie B,最終trie B合並到trie A上,具體如下:
1和1』合並時,因為level為0,所以1』直接合並到1中;
4和4』合並時,因為節點無交集,所以創建新節點c1(node 4的拷貝),並將4'上的邊拷貝到c1中。
示例2,rule類別相同,但優先順序不同:
acl_rules[1]為trie A,acl_rules[0]對應trie B,最終trie B合並到trie A上,具體如下:
6和6』是match node,類別相同,且6的優先順序為2大於6』的優先順序。
6和6』合並時,直接返回6。而前面創建的新節點,如d1,已包含5』的所有邊(非ACL_INTERSECT_B),所以最終返回5,free d1。
同理依次往上回溯,a4,b3,c2,也依次被釋放,最終merge的trie即為原來的trie A。
示例3,rule類別不同,優先順序相同:
acl_rules[1]為trie A,acl_rules[0]對應trie B,最終trie B合並到trie A上,具體如下:
6和6』是match node,因為類別不同,所以最終創建了新node e1,這也導致示例3和示例2最終merge結果的不同。
合並是一個遞歸的過程,逆向思考構造過程會有助於理解演算法。另外,在build_trie之前會sort_rule,匹配范圍更大的rule會放到前面優先構造trie,個人為這樣node A包含node B的概率更大,這可能也是merge時創建的node C是A的拷貝而不是B的拷貝的原因,因為這樣出現ACL_INTERSECT_B的概率相對較低。
一些說明:
trie樹構造完成後,會將其由指針跳轉的形式轉換為等效的數組索引形式,即node array,既可讓匹配數據更緊湊,也可提高匹配演算法的效率。
採用node array的方式進行狀態點的壓縮是很常見的優化方式,比如snort裡面的ac演算法(acsmx.c):
筆者也曾經做過類似的優化,通過將出邊由指針方式修改為索引方式,整個匹配tree的內存佔用只需要原來的1/5。
將指針方式轉換為node array形式是優化的第一步,對於Next[256]出邊又可以採用多種壓縮方式,比如snort中新的ac演算法(acsmx2.c),就採用了Sparse rows和Banded rows等多種壓縮方式,但其原理是將出邊進行映射轉換,本質上還是做DFA狀態跳轉。
DPDK對邊的壓縮方式與上述類似,不過它優化的粒度更細,不同type的node有不同的壓縮方式:
比如在示例三中,node 1為DFA節點(根節點強制使用DFA方式),2、3、a5、b4、c3、d2為QRANGE,4、5為SINGLE,6、e1為MATCH。
2、3、a5、b4雖然在圖上僅有一條有效邊,但它不為SINGLE,因為對於無效的匹配其實也會有出邊,所以它的真實出邊數目並不唯一,只有像4、5這類全匹配節點才是真正的SINGLE節點。
在構造node array前,會調用acl_calc_counts_indices函數更新node的node type,fanout等信息。
node type依據其fanout值決定,fanout計算見acl_count_fanout函數,其原理是:
比如對於示例3中的d2節點:
fanout計算完成後,若其值為1則為SINGLE節點,(1, 5]為QRANGE節點,(5, 256]為DFA節點。
注意:對於trie樹的root節點,不論fanout值為多少,會強制將其構造為DFA節點,且其fanout值會重新計算。
type和fanout計算完成後,會統計各類節點數目,信息保存在acl_calc_counts_indices傳入的counts參數中,隨後rte_acl_gen依據這些信息將整塊的node array內存分配出來,其布局大致如下:
Data indexes中用於保存在rte_acl_field_def中定義的offset;
Results對應match node,用於保存匹配結果。
Trans table包含整個匹配過程中的跳轉點:
靜態將整塊node array分配完成後,就需要依據trie 樹的node信息填充Trans table和Results了,具體過程見acl_gen_node函數;Data indexes的填充則在acl_set_data_indexes中完成。
2.2中的內存布局大致描繪了各種類型節點的分布情況,DFAs內部由一個一個的DFA節點組成,QUADs和SINGLEs也一樣,都是由相同類型的節點構成。
對於每一個節點,其結構則類似如下形式:
DFA節點的fanout一般為4,出邊數為fanout*RTE_ACL_DFA_GR64_SIZE;(圖中畫的為fanout為4的情況,256條出邊)
QUAD節點的fanout不超過5,即為節點的出邊數不超過5;(圖中畫的為fanout為4的情況)
SINGLE節點只有一個出邊;
圖中的trans即為這個節點的出邊,它本質是一個uint64的數據結構,通過trans和input信息即可計算得到下一個節點的index,從而實現匹配跳轉。trans中不同bit位包含著豐富的信息,具體見acl.h中的說明即可。
高32位對於不同類型的節點有不同的解釋:
低32位:
在實際處理過程中,通過高32位與input_byte計算得到index,與低32位中的addr,即可快速定位到下一個trans:trans_table + (addr+index)。
這里的處理其實與傳統的DFA跳轉差別很大,傳統處理時,next = node[『input』],跳轉到下一個節點,然後採用next[『input』]進行跳轉和匹配,即使有數據結構的壓縮,跳轉目標仍是狀態點。但DPDK中,跳轉時直接採用trans_table + (addr+index),直接找到了狀態點的邊(trans),而不是到狀態點。
跳轉表具體構建時,採用acl_gen_node函數完成:
匹配的過程與跳轉表的構建其實是互為一體的,如何構建跳轉表就決定了如何進行匹配。
在2.3節,對於跳轉的形式已進行了說明,具體可閱讀rte_acl_classify_scalar函數:跳轉時直接採用trans_table + (addr+index),直接找到了狀態點的邊(trans),而不是到狀態點。
對於具體的匹配過程,還有一點需要注意,即GET_NEXT_4BYTES的使用,每次匹配時候都會去4BTYTES進行匹配,這也是為什麼定義input fields時要求4位元組連續。比如我在dpdk-dev郵件組中問的這個 問題 。
解決4位元組連續,可以通過定義相同的input_index來解決,比如像郵件中提到的設置sport/dport的input_index相同,這是因為data indexes的構造取決於input_index,見acl_build_index函數;同時field_index不同、input_index相同時可避免對field區間的優化(如果優化,將某個field去掉了,這時4位元組匹配會失效)。郵件中的問題,正是因為field[3]被優化掉後,4位元組連續匹配出現問題。
在特定的場合還必須通過指定.size為32來解決,即使type類型為BITMASK,見DPDK的ACL文檔中關於 tos示例的說明 。
另外再說下field_index,前面提出一個問題:field_index是否多餘?
答案是不多餘,因為演算法中會對field進行優化,如果不指定field_index欄位,這個優化就無法進行了,具體的優化處理見acl_rule_stats函數。
優化過程中要進行input_index的判斷,這是因為相同的input_index可以有多個field,但其中只有某個field是completely wild時應避免進行優化。只有相同input_index的所有field都是completely wild時,才應該將這個field優化掉。
上面的一系列說明,都是針對GET_NEXT_4BYTES每次匹配四個位元組的匹配進行的補充說明。
匹配的具體過程,這里用圖形的方式進行簡要說明,為了能有多種類型的node,這里構造規則如下:
trie樹如下所述:
對應的node array如下圖所示:
假設輸入數據為:proto 16, ip 192.12.8.8,則transition跳轉方式如上圖紅線所示:
注意:node array中indexes、DFA0和idle省略了。
關於trie樹相關的理論知識參考 這里 。
本文主要介紹了DPDK的ACL演算法,詳細描述了如何由規則生成trie,並將trie轉換為node array的過程,在文末通過示例介紹了具體的匹配過程。文章旨在介紹ACL演算法的基本思路,希望對大家能有所幫助。