|
曾經(jīng)一位同事在寫程序時發(fā)現(xiàn)在利用正則表達式匹配文本時的效率很低。首先可以排除是正則表達式本身的問題,因為所使用的正則表達式是十分簡單的,匹配的文本量也不算大。檢查的時候去掉了RegexOptions.Compiled的選項之后,程序整體速度得到了很大的提升。
這是因為誤解了RegexOptions.Compiled這個選項提供的功能。在正則引擎啟動正則表達式之前,需要做一些準備工作,這些準備工作包括檢查正則表達式是否符合格式規(guī)范,并將其轉(zhuǎn)化能夠?qū)嶋H應(yīng)用的內(nèi)部形式。在許多關(guān)于正則表達式的文檔中,將這一過程用compile來描述。然而在.NET中,這個過程實際上是以parsing來描述的。
在.NET中,parsing是指在程序執(zhí)行過程中,第一次遇到正則表達式時必須檢查它是否格式規(guī)范,并將其轉(zhuǎn)換為適于.NET正則引擎實際應(yīng)用的內(nèi)部形式。
當(dāng)指定RegexOptions.Compiled的時候,所提供的機制是告訴正則引擎,除了將正則表達式轉(zhuǎn)換為認定的內(nèi)部形式外,還將其編譯(很多人會混淆這里的編譯和parsing的過程)為底層的MSIL(Microsoft Intermediate Language)代碼,在正則表達式實際應(yīng)用時,可以由JIT(Just-In-Time)優(yōu)化為更快的本地機器代碼。
啟動這個選項究竟對性能產(chǎn)生了怎樣的影響,可以從三個方面來看。
首先在啟動速度上,在不使用RegexOptions.Compiled會比較快,使用了RegexOptions.Compiled情況下,通常會使啟動速度慢許多,據(jù)說最多是60倍。
在內(nèi)存占用方面,使用RegexOptions.Compiled時,通常每個表達式會占用5KB~15KB的內(nèi)存,更重要的是,在程序執(zhí)行過程中,這塊內(nèi)存是無法被釋放的。這里有時會帶來一些問題,因為Regex在.NET中作為對象被封裝,如果是多個進程或請求同時調(diào)用到這個代碼片段,可能會造成相同的正則表達式在重復(fù)占用了內(nèi)存,這取決于程序具體的實現(xiàn)方式。
在匹配速度方面,RegexOptions.Compiled是可以提升匹配速度的,但是因為有在啟動速度和內(nèi)存占用方面帶來的額外開銷,所以除非是在需要匹配大量的文本和反復(fù)使用某正則表達式時,這種提升非常不明顯,而且在許多人誤用此選項的情況下,得到的結(jié)果反而是程序整體運行速度的下降。所以在非大量文本處理的情況下,如果對程序整體效率有嚴格要求,建議不要使用該選項。
如果需要使用該選項,那么一個應(yīng)該考慮的也是更好的方案應(yīng)該是將要使用的正則對象封裝到一個DLL中,這將使最終的程序占用的內(nèi)存更少,因為不必裝載使用RegexOptions.Compiled編譯正則表達式的包。另外,由于在封裝DLL時正則表達式已經(jīng)編譯好了,裝載的速度也就得到了提升。附帶的一個好處就是這個包還可以提供給其他需要的程序員調(diào)用,而不是copy正則表達式的代碼。
以上內(nèi)容和分析適用于.NET Framework 2.0。
NET技術(shù):RegexOptions.Compiled的含義和使用,轉(zhuǎn)載需保留來源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。