ert演算法

發布時間: 2022-11-14 08:39:31

❶ ERT系統是什麼概念

兩相流(或多相流)是一種廣泛存在的混合流動模式。隨著工業生產水平的不斷提高，對兩相流參數進行測量的需要也越來越迫切，有關的研究受到國內外專家的普遍重視。近年來發展起來的過程層析成象(Process Tomography,簡稱PT)技術是一種非常有潛力的兩相流/或多相流檢測手段[1,2].既可以利用它可視化測量的優勢進行在線監測，觀察流型，計算相含率，也有可能從它的直接測量信號中提取流型、相含率等信息。
電阻層析成象(Electrical Resistance Tomography,簡稱ERT)技術是PT技術中的一種，ERT適用於兩相流中的液相連續相的生產過程，如液－氣泡混合過程、液固混合過程、旋渦分離過程以及化學反應過程等，對這些過程的分析研究或者在線定性/定量監測與控制等，ERT技術提供了一種高效、低成本的多維測量手段，是一種先進的高新檢測技術，具有廣闊的開發和應用前景。

1 ERT技術的基本原理
ERT的所有理論都建立在似穩場假設的基礎上。在電磁場理論中，似穩場滿足麥克斯韋微分方程組[3].似穩場遵循靜態場的規律，即矢位A和電位分別滿足Poisson方程和Laplace方程。ERT系統敏感場滿足第三類的穩場條件，可以用靜態場的理論來描述和求解。
ERT的實質就是運用一個物理可實現系統完成對被測物場特性分布f(r,)的雷登變換與雷登逆變換。系統的工作過程就是根據特殊設計的敏感器陣列獲得的物場信息(邊界測量電壓)，去求取物場內部的電壓分布——投影數據，再採用定性/定量的圖象重建演算法求出被測物場的圖象(電導分布信息)，進而從重建圖象信息中提取物場的特徵參數，為過程檢測和控制提供依據。

2 ERT的系統構成
由於不同媒質具有不同的電導率(電阻率的倒數)，求出敏感場的電導率分布便可獲得物場的媒質分布信息。因此其工作方式採用電流激勵、電壓測量。當場內電導率分布變化時，電流場的分布會隨之變化，導致場內電勢分布變化，從而場域邊界上的測量電壓也要發生變化。利用邊界上的測量電壓，通過一定的成象演算法，可以重建出場內的電導率分布或反映電導率分布情況的灰度分布，實現可視化測量。
典型的ERT系統包括用於激勵測量的電極陣列、數據採集與處理單元、圖象分析單元。如圖1所示。

圖1 典型ERT系統的構成

ERT系統的電極陣列由特殊設計的電極等間隔排布，控制單元(計算機)向數據採集單元發出指令，給某一對電極施加激勵電流，在過程對象內部建立起敏感場。測量邊界上的電壓信號，將得到的測量數據送圖象重建單元，以適當的演算法重建出對象內部的電導率分布，從而得到媒質分布圖象(二維或三維)。最後送圖象分析單元，對圖象的物理意義加以解釋，提取有關的特徵參數，為過程式控制制或實驗研究提供必要的依據。

3 ERT技術特點
同其它PT技術相比，ERT技術具有以下特點：
(1)被檢測物場的連續相必須具有一定的導電性，一般必須是含有水的生產過程。
(2)敏感陣列為非侵入式，由一系列等間隔排布的電極構成。敏感陣列的設計對於敏感場的性能有直接的影響。電極的設計、排布以及電極的性能是整個系統至關重要的一部分。
(3)敏感場的激勵信號為低頻的交流恆流源。激勵信號的頻率范圍一般選用千到幾數萬赫茲。頻率過低容易引起電極的電化學反應，尤其對電解質溶液、腐蝕性溶液等等。頻率過高，電磁場感應及分布阻抗等會帶來很強的測量雜訊。
(4)檢測信號為弱的交流電壓信號或其微小變化，要求測量電路必須具有高的靈敏度和信噪比。
(5)敏感場存在軟場(soft-field)效應。敏感場分布要受到場內媒質(物場)分布的影響，敏感場與物場的相互作用為非線形，導致圖象重建和圖象分析的困難。
(6)設計敏感電極陣列時，必須考慮電極陣列所形成的空間敏感場的非均勻性的影響，應盡可能使其靈敏度均勻性好。

4 ERT技術的研究現狀
作為PT技術的一個重要分支，目前ERT技術的研究主要集中在以下幾個方面：敏感電極陣列的優化設計，硬體電路性能的提高，圖象重建演算法的改進，應用性的開發等等。世界上從事過程ERT研究的以英國UMIST的PT小組較為領先，已經在攪拌器和旋流器[4]等實驗裝置上進行了應用研究，並開發出應用於金屬容器的ERT系統[5].美國的Rensselaer Polytechnic Institute的Jones等人也在從事ERT技術應用於多相流檢測的研究。美國University of Arizona的D.J.LaBrecque等人將ERT應用於環境監測與整治的研究。美國Lancaster University的Andrew Binley等人用ERT方法分析土壤和岩石的成分。中國的天津大學徐苓安教授領導的PT小組著手開發的ERT技術為核心的在線監測系統，應用於精餾塔的實時觀測。浙江工學院開發出應用於土壤環境監測的大范圍ERT系統；北京航空航天大學、東北大學也相繼著手於成象演算法、應用性的ERT系統的研究方面作了一些工作。
當前國際上ERT技術在硬體電路方面已達到很高的指標，英國UMIST的ERT系統靈敏度可達4.88μV,共模抑制比為-70dB[6].成象演算法方面也從定性研究進入到定量的MNR(牛頓-拉夫遜)演算法，但這一演算法需要高精度的場模型及高精度的測量數據，尚未實際應用。目前還沒有關於ERT敏感場空間分布的定量認識。

5 ERT技術必須解決的問題及ERT技術展望
為實現定量測量並達到一定的精度，要求ERT系統能夠提供高精度的重建圖象，並能對重建圖象的物理意義予以准確解釋，如獲得各種媒質准確的大小、形狀、位置等詳細的信息，以為過程式控制制提供依據，要求ERT技術的研究應在以下幾個方面作出努力：①為ERT系統提供被測對象信息的硬體系統必須准確可靠，這就要求感測器材料的選擇、加工的精度、數據採集系統的穩定性、精度等盡可能滿足要求；②敏感場分布特性的認識和改進，盡可能改善敏感場靈敏度分布的均勻性。實際上ERT系統的敏感場是三維非均勻分布的，簡單地用二維場近似的分析實際的三維場勢必要引起誤差。改進敏感電極陣列的設計使其靈敏度均勻性好，以改善敏感場的空間分布，使其具有二維場的分布特性；或是基於三維場描述敏感場特性研究媒質分布、重建圖象演算法及對圖象的解釋等等。③高質量的圖象重建演算法及圖象物理意義解釋演算法的開發也很重要。圖象重建演算法主要是演算法收斂性的改進和實時性的提高等方面

❷ matlab怎麼使代碼生成軟體

打開MATLAB，這里用MATLAB R2012a版本，然後點擊Simulink按鈕，或者在Matlab命令行里輸入simulink即可，就打開了Simulink模擬環境。點擊Simulink左上角file——new—— modol，就建立了模型窗口。

接下來就是建立模型的過程，按照自己的設計，在上圖的右側子模塊窗口中，單擊「Source」子模塊庫前的「+」(或雙擊Source)，或者直接在左側模塊和工具箱欄單擊Simulink下的Source子模塊庫，便可看到各種輸入源模塊。搭建模型的過程就不詳細介紹。可參考下面的連接
1如何建立一個簡單的Simulink模型

下面進入到最重要的環節。模型搭建運行成功時候，點擊simulation下的選項configuration parameters，出現參數設置的窗口如下，接下來主要是參數設置的問題，以及代碼自動生成的設置。
代碼生成的模型配置主要是在Configuration Parameters參數配置集合中進行，嵌入式代碼生成用的模型配置相對比較復雜。Configuration Parameters中集中管理著模型的代碼生成方法、格式等約束條件。在Simulink窗口的Simulation的下拉菜單中，選擇Configuration Parameters，或者按下Ctrl+E就可以打開Configuration Parameters參數配置對話框.
為了生成嵌入式代碼，至少需要配置3個部分：模型的解算器solver；模型的系統目標文件（如ert.tlc或其他自定義的嵌入式系統目標文件）；硬體的實現規定（Hardware Implementation）。

1.模型的解算器solver的設置，solver頁面如下圖所示。
在研究代碼生成時，solver的步長一定要設置為固定步長，因為RTW只能從固定步長的模型生成代碼[21]。固定點solver提供了多種演算法，本次的SVPWM模型中由於沒有連續狀態，可以選擇discrete方法。步長默認auto，在簡單的通用嵌入式代碼生成過程中此參數沒有實際作用，可以採用默認或者設置0.01s。而在針對目標晶元定製的代碼生成過程中，硬體驅動工具箱往往會將步長step size作為其外設或內核中定時器的中斷周期，使得生成的演算法代碼在硬體晶元中以同樣的時間間隔執行。並且由於解算器步長為整個模型提供了一個基礎采樣頻率，故被稱為基采樣率（base-rate）。

2. Hardware Implementation硬體的實現規定
Hardware Implementation選項是規定目標硬體規格的選項。在這個選項卡里，可以配置晶元的廠商和類型，設置晶元的字長、位元組順序等。在本次基於DSP的SVPWM演算法的模擬代碼生成中，Hardware Implementation選項設置如下圖所示。

3. 模型的系統目標文件
另外一個關鍵的設置選項是控制整個代碼生成過程的系統目標文件System Target File，ert.tlc文件是Embedded Coder提供的能夠生成專門用於嵌入式系統C代碼的系統目標文件。在Code Generation頁面中，單擊下圖右上角的Browse按鈕可以彈出對話框以選擇系統目標文件。

Report子標簽能夠打開設置關於生產代碼報告的頁面，可以選擇是否創建HTML格式的代碼生成報告，並通過勾選框選擇是否在模型編譯結束後自動打開。最好勾選Create Code Generation Report及Open Repot automatically兩個選項，模型生成代碼完畢後會自動彈出報告列表，而不需要到文件夾中逐一將源文件手動查找並打開。
Include comments選項的勾選決定是否在生成代碼中添加Simulink自帶的注釋。啟動此選項後，Auto Generated comments組及Custom comments組的選項便被使能，可以根據需要選擇希望生成的注釋內容。最好勾選此選項，注釋中將帶有可以從代碼跳轉到對應模型的超鏈接，方便讀者追溯模塊與代碼的對應關系。
Custom Code子標簽頁面主要用於添加用戶自定義的或者編譯模型時必須的源文件、頭文件或者庫文件等。
Debug子標簽頁面提供了關於編譯過程和TLC過程的選項。Verbose build的勾選可以將編譯過程信息顯示在Command Window中。Retain.rtw file則能夠保留編譯模型生成時的rtw文件。TLC process組參數能夠啟動TLC文件的profile功能和調試功能，使得開發者能夠對TLC語言文件進行斷點、單步調試等動作。
rtw文件是代碼生成過程中從Simulink模型得到的中間文件，它記錄了模型相關的所有需要被TLC文件使用的信息。

最後，點擊Generate code按鈕即可自動生成所需代碼。

自動生成的文件在MATLAB左側的工作空間里，可以打開該文件夾查看自動生成的文件。

❸ 什麼是數字簽名

數字簽名（又稱公鑰數字簽名、電子簽章）是一種類似寫在紙上的普通的物理簽名，但是使用了公鑰加密領域的技術實現，用於鑒別數字信息的方法。一套數字簽名通常定義兩種互補的運算，一個用於簽名，另一個用於驗證。
數字簽名，就是只有信息的發送者才能產生的別人無法偽造的一段數字串，這段數字串同時也是對信息的發送者發送信息真實性的一個有效證明。
數字簽名是非對稱密鑰加密技術與數字摘要技術的應用。
數字簽名的文件的完整性是很容易驗證的（不需要騎縫章，騎縫簽名，也不需要筆跡專家），而且數字簽名具有不可抵賴性（不需要筆跡專家來驗證）。
簡單地說,所謂數字簽名就是附加在數據單元上的一些數據,或是對數據單元所作的密碼變換。這種數據或變換允許數據單元的接收者用以確認數據單元的來源和數據單元的完整性並保護數據,防止被人(例如接收者)進行偽造。它是對電子形式的消息進行簽名的一種方法,一個簽名消息能在一個通信網路中傳輸。基於公鑰密碼體制和私鑰密碼體制都可以獲得數字簽名,主要是基於公鑰密碼體制的數字簽名。包括普通數字簽名和特殊數字簽名。普通數字簽名演算法有RSA、ElGamal、Fiat-Shamir、Guillou- Quisquarter、Schnorr、Ong-Schnorr-Shamir數字簽名演算法、Des/DSA,橢圓曲線數字簽名演算法和有限自動機數字簽名演算法等。特殊數字簽名有盲簽名、代理簽名、群簽名、不可否認簽名、公平盲簽名、門限簽名、具有消息恢復功能的簽名等,它與具體應用環境密切相關。顯然,數字簽名的應用涉及到法律問題,美國聯邦政府基於有限域上的離散對數問題制定了自己的數字簽名標准(DSS)。

參考來源：http://www.ert7.com

❹ 傳輸層Transport layer TCP, since 2020-08-05

(2020.08.07)
TCP被稱為面向連接的(connection-oriented)，這是因為一個進程可以向另一個進程發送數據之前，兩個進程需要先握手，即他們開始互相發送預備報文段，以確保建立數據連接的參數。

TCP是邏輯連接，其共同狀態僅保存在兩個通信端系統的TCP程序中。而端系統之間的網路元素不會維持TCP的連接狀態。中間路由器對TCP完全視而不見，他們只看到數據報，而非連接。

通信特點
全雙工(full-plex service)，處在不同主機的進程A和進程B之間存在一條連接，數據可以同時從A流向B和從B流向A。
點對點(point-to-point)，在單個發送方和單個接收方之間的連接。

伺服器進程和客戶進程
發起連接的進程稱為客戶進程，另一個稱為伺服器進程。
(2020.08.08)
數據一旦被送進socket，就由客戶TCP控制了，TCP將數據放在一個數據緩存(send buffer)里(C/S兩端都有)，該緩存也是三次握手時數據存放處。TCP會從緩存中取出一塊數據，傳遞給網路層。

TCP首部+客戶數據=TCP報文段(TCP segment)

TCP從send buffer中取出並放入報文段中數據的數據量受限於 最大報文段長度(maximum segment size, MSS) ，其根據最初確定的由本地主機發送的最大鏈路層幀長度(即最大傳輸單元Maximum transmission unit, MTU)來設置。乙太網和PPP鏈路都有1500位元組的MTU，考慮到TCP/IP首部一般是40位元組(TCP首部20位元組)，TCP報文段中數據長度典型值是1460位元組。注意到這里的MSS指的是TCP報文段中來自應用層的數據的最大長度。

TCP連接的組成
一台主機上的緩存、變數和連接進程的socket，以及另一台主機上的緩存、變數、socket。

首部+數據欄位。當TCP發送一個大文件，比如圖片，TCP通常將該文件劃分成長度為MSS的若干，除最後一塊，其他的都是MSS長度。而Telnet這樣的應用，數據欄位只有一個位元組長，也就是其TCP一般只有21個位元組的長度。

典型長度：20位元組/160bits (選項欄位為空時)
源埠號：16bits
目的埠號：16bits
序號(seq num)：32bits
確認號(acknowledgment num)：32bits
接收窗口(receive window field)：16bits ，用於流量控制，指示接收方願意接收的位元組數量
首部長度(header length field)：4bits ，以32bits的字為長度的TCP首部長度
選項欄位(options)：可選和變長
標志欄位(flag field)：6bits ，ACK/RST/SYN/FIN/PSH/URG

序號建立在傳送的位元組流之上而非報文段的序列值上，the sequence number for a segment是報文段首位元組的位元組流編號。比如一個待發送的文件共10,000個位元組，每個TCP的報文段發送1,000個，則第一個報文段的序號是0，第二個序號是1,000，以此類推。該序號是位元組的編號，並用於給報文段編號。
上面的例子中假設初始序號是0，在實際應用中收發兩方隨機選擇初始序號。
確認號略復雜。主機A和B之間建立TCP通信， 主機A填充進報文段的確認號是A期望從B收到的下一個位元組的序號 。

報文段的樣本RTT(SampleRTT)是報文段被發出(交給IP)到對該報文段的確認被收到之間的時間量。僅為一個已經發送的但目前尚未被確認的報文段估計SRTT，從而產生一個接近每個RTT的新SRTT值；不為已經被重傳的報文段計算SRTT；僅為傳輸一次的報文段測量SRTT。

由於網路環境變化，比如路由器的擁塞和端負載的變化，SRTT並不都是典型的。TCP會維持一個SRTT的均值(EstimatedRTT)，並根據下面公式計算ERTT

其中的推薦值。該指數加權移動平均值(Exponential Weighted Moving Average, EWMA)賦予最近樣本的權值要高於舊樣本的權值，因越近的樣本能更好的反應網路的擁塞狀態。

此外，RTT的標准差DevRTT用於估算SRTT偏離ERTT的程度：

推薦值。

超時間隔應該大於等於ERTT，否則造成不必要的重傳。但也不該比ERTT大很多，導致數據傳輸時延大。當SRTT波動大時，間隔大些，波動小時，間隔小些。

初始推薦值，當出現超時候翻倍。只要收到報文就更新ERTT，並根據公式重算TimeoutInterval。
(2020.08.09 Sat)
定時器
定時器的管理需要相當大的開銷，因此[RFC 6298]推薦僅使用單一的重傳定時器，即便有多個已發送但未被確認的報文段。

(2020.08.09 Sat)
TCP中發送方相關的三個主要動作

發送方對這些主要動作的反饋參考可靠數據傳輸的部分。

超時間隔的選取
每當超時事件發生，TCP重傳具有最小序號的未被確認的報文段。只是每次TCP重傳是都會將下一次的超時間隔設為先前值的兩倍，而不是用從EstimatedRTT和DevRTT推算的值。然而每當定時器遇到另外兩個事件，即ACK和上層數據，定時器的啟動TimeoutInterval由最近的ERTT和DRTT推算得到。

TCP兩側的主機都有接收緩存。流量控制服務用於消除sndr使rcvr緩存溢出的可能性。fcs因此是一個速度匹配服務，即sndr的發送速率和rcvr應用程序的讀取速率相匹配。
TCP讓sndr維護一個接收窗口(receive window)的變數來提供流量控制，即rw用於給sndr一個指示-該sndr還有多少可用的緩存空間。TCP是全雙工通信，兩端的發送方都維護一個rw。分析一種情況，主機A通過TCP向B發送一個大文件，B為該連接分配一個接收緩存，用RcvBuffer來表示。B的應用進程從該緩存中讀取數據。有如下變數

緩存不許溢出，故有接收窗口用rwnd表示，緩存可用空間數量(即空閑的空間數量)表示為
主機A需要跟蹤另外兩個變數，LastByteSent和LastByteAcked，對A來說有
一個特例，當B的接收緩存滿，rwnd=0，假設此時B沒有任何數據要發送給A。考慮到TCP並不向A發送帶有rwnd的新報文段，而事實上TCP僅當有數據或去人要發時才會發送報文段給A。導致A不知道B的接收緩存有新空間，A被阻塞不能在發送數據。解決方案，TCP規范要求，B的接收窗口為0時，A繼續發送只有一個位元組數據的報文段，這些報文段將會被接收方確認，最終緩存開始清空，且確認報文段將包含一個非0的rwnd值。

(2020.08.05)
TCP建立過程中三個握手(three-way handshake)的作用

三次發送，sndr/rcvr雙方各自確認了自身和對方的接收能力和發送能力。握手完成便可建立連接。
(2020.08.07)
前兩次握手的報文段不承載"有效載荷"，也就是不包含應用層數據，第三個握手可以承載應用層數據。

(2020.08.09 Sat)

完成這三步，C-S可通信，以後每一個報文段的SYN都設置為0。
結束連接
客戶打算結束連接，發出一個特殊的報文段，設置其中的FIN=1。伺服器接收到回復一個確認報文段，其中的FIN=1。伺服器再次發送一個結束連接報文段，FIN=1。客戶收到後發送ACK並釋放佔用的資源。

IP層不會向兩個端系統提供有關網路擁塞的反饋信息。略。

發送方sndr設定一個變數，擁塞窗口congestion windown，cwnd，它對TCP發送方能向網路中發送流量的速率進行了限制，並且和前面提到的接收窗口rwnd聯合決定了發送速率，即
TCP如何感知它和目的地之間的擁塞
定義丟包事件：出現超時，或者受到來自接收方的3個冗餘ACK。
一個丟失的報文段意味著擁塞，當報文丟失應該降低TCP sndr的發送速率。 即減小cwnd。
一個確認報文段指示該網路正在向rcvr交付sndr的報文段，因此，當對先前未確認報文段的確認到達時，能夠增加發送方的速率。
貸款檢測。

該演算法分為三部分，1)慢啟動，2)擁塞避免，3)快速恢復。其中的1和2是TCP強制部分。在收到ACK時，慢啟動比擁塞避免更快的增加cwnd的長度。

當一個TCP連接開始時，cwnd的值通常設為一個MSS的較小值。這使得發送速率大約為MSS/RTT。如MSS=500Bytes，RTT=200ms，則初始發送速率是20kbps。注意到此時帶寬可能比初始速率快的多。慢啟動(slow-start)狀態，cwnd的值以一個MSS開始並且每當傳輸的報文段首次被確認就增加一個MSS。這一過程使得每過一個RTT，發送速率就翻番。初始速度慢，但ss階段以指數增長。

結束ss的情況

❺ vb 請教高手

如何實現浮雕效果的深度及燈光效果的角度均可調節，並增加水彩的效果的圖像處理?

首先，你先學習一下美術吧，裡面會有介紹的；
其次，到網上搜索一下吧，浮雕效果的製作等；
然後，再考慮怎麼用VB實現吧；
最後，請選擇SDK來實現。

程序說明
可以對512*512的256色點陣圖進行銳化、浮雕效果處理。
銳化圖像銳化圖像就是要突出形體的邊緣。邊緣也就是顏色值發生顯著變化的地方，在程序中採取了下列演算法。
New_color=original_color+0.5* different
differert表示相鄰像素之間的差值。0.5為銳化系數，系數越大，銳化效果就越突出。
浮雕效果浮雕效果是只取相鄰像素的差值。這時，圖像的平淡區被完全「抹平」，只能看到圖像的邊緣，程序中採用的演算法如下：
new_color=different+128
擴散效果擴散效果在圖像中引入了一定的隨機性，使圖像有油畫般的效果。應在當前像素點周圍5*5的像素塊中隨機取一點作為當前像素值。
柔化圖像柔化操作使原圖看起來更加柔和，有種蒙朧感。柔化可以削減圖像中顏色的顯著變化，使形體的邊界趨於平滑。柔化圖像，就是要減少像素之間較大的差別。取以當前像素為中心的3*3的像素塊，取這個像素塊中顏色的平均值和周圍像素趨於一致，這樣就削減了顏色的顯著變化。對圖像中每個像素點都進行同樣的操作，就構成了對整幅圖像的柔化。
影響柔化程度的一個因素是選取像素塊的大小。所選取的像素塊越大，產生的柔化效果越強烈，加強柔化效果，即通過改變像素塊的大小來調節柔化強度。
馬賽克效果將欲生成馬賽克效果的圖像分成n*n個像素塊，每個像素塊的像素取平均值作為這n*n個像素點的值。

❻ 今我來思，堆棧泛化（Stacked Generalization）

在集成學習（Ensemble Learning）中除了Bagging和Boosting對數據的橫向劃分劃分之外，還有一個縱向劃分（加深）的方法，一般稱為Stacked Generalization（SG）的技術。 SG這個技術已經在Kaggle競賽中多次嶄露頭角了，部分情況下，應用SG技術可以讓錯誤率進一步降低30%。

什麼是SG？

為了闡述，下面借用了一張很直觀的SG的示意圖：數據劃分的縱向上有兩層學習器，把Level 0的Base-learner學習器的輸出，作為Level 1學習器的輸入， Level 1的學習器又被稱為Meta-learner或者Generalizer。這種集成學習方式就是SG，也稱為Stacking。

SG是怎麼誕生的？

最早重視並提出Stacking技術的是David H. Wolpert，他在1992年發表了SG技術論文：這好比是巧妙的擴展了交叉驗證（cross-validation），通過勝者全得（winner-takes-all）的方式來集成的方法。 Wolpert大神是一個三棲學者，數學家，物理學家，和計算學家。他更為成名的是1995年提出No-Free-Lunch（NFL）理論。 NFL理論很直觀，就是演算法差異更多在於適不適合你要解決的問題。比較多個演算法，例如，問題P1和機器學習M1合適，但是不可能合適所有的問題。

Wolpert

多個演算法的NFL解釋

兩個演算法的NFL解釋

也許NFL是對SG技術有效性更深層次思考的一種解釋：如何協調不同的演算法的適用性呢？ SG就是這么一種有效的技術。

SG的基因？

SG是Ensemble Learning中異源集成（heterogenous ensembles）的典型代表。一般來說，同源集成（homogenous ensembles）就是Bagging和Boosting了（還有一個Cascading 的小眾集成學習方法，也可以算是同源集成）。

Bias-Variance平衡是機器學習的經典話題，而集成學習就是在盡量不增加一方，想法設法降低另外一方，或者同時降低兩者的方法，而代價就是集成。

一句話， Stacking的基因就是Ensemble中Aggregation方法進一步泛化的結果，是通過Meta-Learner來取代Bagging和Boosting的Voting/Averaging來綜合降低Bias和Variance的方法。譬如： voting可以通過KNN來實現， weighted voting可以通過softmax（Logistic Regression），而averaging可以通過線性回歸來實現。

Bagging， Boosting和Stacking的差異？

借用三張清晰的比較Bagging，Boosting，和Stacking的示意圖，如下：

Bagging有一個Bootstrap的數據准備過程，然後每份數據會學習出一個學習器，然後基於這組學習的輸出結果進行Voting或者Averaging，整個流程可以並行(Parallel)處理。

Boosting 根據當前學習器的錯誤率(Error Rate)來對數據進行篩選，然後基於高錯誤率的數據再訓練新的學習器，同時調整已有學習器的權重。最後通過帶權重的投票（Weighted Voting）來分類，整個過程是有依賴順序（Sequential）的。

Stacking是先設好學習器base-learner，然後把base-learner的輸出作為meta-learner的輸入進行集成。這個框架簡單，但是靈活度很高。

下面，總結下它們在目標，數據，分類器和集成方式等方面的差異：

其實， Stacking具有的靈活和不確定性，使得它既可以來實現Bagging方式，又可以來實現Boosting方式。

SG是如何長成的？

理論方面，SG被Wolpert在1992年提出後，Leo Breiman這個大神，在1996年把廣義線性模型（Generalized Linear Model）和SG方法結合起來提出了 "Stacked Regressions"。再之後，同樣來自伯克利（Berkeley）的Mark J. van der Laan在2007的時候在表述Super Learner的時候，從理論上證明了Stacking方法的有效性。

實踐方面，除了SG理論本身的突破之外， SG應用的廣度和深度也在不停的突破，其中一個是訓練數據的分配（Blending的出現）；而另外一個是深層（3層以上）Stacking的出現。

Blending是一個簡單模式，除了最後一層一個Generalizer之外，其他每層都是一組學習器，然後兩層之間相互連接一個或者多個的Base-learner學習器。前面我們講到Stacking的訓練，是把這個集成模型看出一個大的學習器，進行Cross-Validation的訓練。但是Blending希望把數據按層進行劃分訓練，例如：

2層的Blending，就會拿90%訓練輸入層，然後10%數據訓練輸出層。

3層的Blending，就會拿70%訓練輸入層，20%訓練中間層，然後10%的數據訓練輸出層。

深度方面， Stacking也可以比較深（3層以上），借用一個圖示意如下：

除了上述兩方面，要搞定一個Stacked Generalization框架除了Stacking本身，其實還要做其他很多工作的。如下圖，借用了別人解釋的Kaggle競賽中建立Stacking框架的概要Overview：

在上面這個圖中，除了列了各種操作，還列了部分Stacking的Meta-learner，例如XGB等，那麼有哪些常見的Meta-learner呢?

常見Meta-learner是？

SG的最後的meta-learner層很大程度是要矯正不同學習器之間的Bias。因此它的選擇是個很大的挑戰。早期人們在提如何設計meta-learner時候有兩點要求： 1）meta-learner的輸入最好是類別的概率，而不是直接類別的標簽。 2）結合線性或者非線性回歸的計算可以用來集成類別的概率。下面列一下已經被用過的meta-learner。

1. 統計方法的Meta-Learner:

Voting ( Majority based, Probabilitybased)

Averaging （Weighted, Ranked）

2. 經典容易解釋的機器學習演算法：

Logistic Regression (LR)

Decision Tree (C4.5)

3. 非線性（non-linear）機器學習演算法：

Gradient Boosting Machine (GBM，XGBoost),

Nearest Neighbor (NN),

k-Nearest Neighbors (k-NN),

Random Forest (RF)

Extremely Randomized Trees (ERT).

4. 加權一次/二次線性（Weighted Linear / Quadratic）模型

Feature weighted linear stacking

Quadratic - Linearstacking

5. Multiple response 分析（非線性）框架

Multi-response linear regression (MLR)

Multi-response model trees (MRMT)

6. 無監督（Unsupervised）方法

- 聚類 Clustering

K-Means

Unsupervised Hierarchical Weighted Multi-segmenter

-維度壓縮 Dimension Rectoin

t-Distributed Stochastic Neighbor Embedding (t-SNE)

7. 其他，在線學習，神經網路，遺傳學習, 群體智能等：

-在線學習 Online stacking (OS)

Linear perceptron with online random tree

Random bit regression （RBR）

Vowpal Wabbit (VW)

Follow the Regularized Leader (FTRL)

-神經網路Artificial neural network （ANN）

2 layer - ANN

3 layer - ANN

-遺傳學習 Genetic algorithm (GA)

GA-Stacking

-群體智能 Swarm intelligence (SI)

Artificial bee colony algorithm

另外，這有個文章列表顯示從1997年到2013年， Meta-learner的設置越來越新穎廣泛：

如何測試評價呢？

各種評價標准：

ACC: accuracy

RMS: root-mean-squared error

MXE: mean cross entropy

LFT: lift

BEP: precision/recall break-even point

FSC: precision-recall F score

APR: average precision

ROC: ROC / AUC

CAL: probability calibration

SAR: (ACC + ROC + (1 - RMS) ) / 3 (一種綜合的穩定的評價標准)

綜上， SG是很強大的集成方式，某種意義上，和深度學習類似，縱向增加了學習深度，但是也增加了模型復雜型和不可解釋性。如何精心的選擇Meta-learner 和 Base-learner，訓練方式，評價標准等也是要重視的經驗。

參考：

http://machine-learning.martinsewell.com/ensembles/stacking/

http://www.cs.utsa.e/~bylander/cs6243/wolpert92stacked.pdf

http://www.santafe.e/about/people/profile/David%20Wolpert

http://mlwave.com/kaggle-ensembling-guide/

http://www.chioka.in/stacking-blending-and-stacked-generalization/

http://manish2020.blogspot.my/2012_12_01_archive.html

http://blog.fliptop.com/blog/2015/03/02/bias-variance-and-overfitting-machine-learning-overview/

http://blog.kaggle.com/2015/12/03/dato-winners-interview-1st-place-mad-professors/

https://en.wikipedia.org/wiki/Cascading_classifiers

http://www.stata.com/support/faqs/data-management/multiple-responses/

http://gerardnico.com/wiki/data_mining/non_linear

http://puyokw.hatenablog.com/entry/2015/12/12/090000

http://qiita.com/sergeant-wizard/items/d1509f71943b429929cf

https://www.semanticscholar.org/paper/Issues-in-Stacked-Generalization-Ting-Witten/

https://www.quora.com/What-are-the-different-ways-to-generalize-logistic-regression-to-multiple-class-labels-instead-of-only-binary

https://discuss.analyticsvidhya.com/t/stacked-generalization/2589

http://blog.csdn.net/u014114990/article/details/50819948

https://www.52ml.net/19553.html

https://github.com/stinstansbury/stacked_generalization

http://www.tuicool.com/articles/IJza2ij

https://my.oschina.net/airxiechao/blog/755899

http://www.emeraldinsight.com/doi/abs/10.1108/14684520310510091

❼ 圓周率（3.14159265358。。。。。）是怎樣得到的

圓周率的計算方法
古人計算圓周率，一般是用割圓法。即用圓的內接或外切正多邊形來逼近圓的周長。Archimedes用正96邊形得到圓周率小數點後3位的精度；劉徽用正3072邊形得到5位精度；Ludolph Van Ceulen用正262邊形得到了35位精度。這種基於幾何的演算法計算量大，速度慢，吃力不討好。隨著數學的發展，數學家們在進行數學研究時有意無意地發現了許多計算圓周率的公式。下面挑選一些經典的常用公式加以介紹。除了這些經典公式外，還有很多其它公式和由這些經典公式衍生出來的公式，就不一一列舉了。
1、Machin公式
[這個公式由英國天文學教授John Machin於1706年發現。他利用這個公式計算到了100位的圓周率。Machin公式每計算一項可以得到1.4位的十進制精度。因為它的計算過程中被乘數和被除數都不大於長整數，所以可以很容易地在計算機上編程實現。
還有很多類似於Machin公式的反正切公式。在所有這些公式中，Machin公式似乎是最快的了。雖然如此，如果要計算更多的位數，比如幾千萬位，Machin公式就力不從心了。下面介紹的演算法，在PC機上計算大約一天時間，就可以得到圓周率的過億位的精度。這些演算法用程序實現起來比較復雜。因為計算過程中涉及兩個大數的乘除運算，要用FFT（Fast Fourier Transform）演算法。FFT可以將兩個大數的乘除運算時間由O（n2）縮短為O（nlog（n））。
2、Ramanujan公式
1914年，印度數學家Srinivasa Ramanujan在他的論文里發表了一系列共14條圓周率的計算公式。這個公式每計算一項可以得到8位的十進制精度。1985年Gosper用這個公式計算到了圓周率的17,500,000位。
1989年，David & Gregory Chudnovsky兄弟將Ramanujan公式改良，這個公式被稱為Chudnovsky公式，每計算一項可以得到15位的十進制精度。1994年Chudnovsky兄弟利用這個公式計算到了4,044,000,000位。Chudnovsky公式的另一個更方便於計算機編程的形式是：
3、AGM（Arithmetic-Geometric Mean）演算法
Gauss-Legendre公式：
這個公式每迭代一次將得到雙倍的十進制精度，比如要計算100萬位，迭代20次就夠了。1999年9月Takahashi和Kanada用這個演算法計算到了圓周率的206,158,430,000位，創出新的世界紀錄。
4、Borwein四次迭代式：
這個公式由Jonathan Borwein和Peter Borwein於1985年發表，它四次收斂於圓周率。
5、ley-borwein-plouffe演算法
這個公式簡稱BBP公式，由David Bailey, Peter Borwein和Simon Plouffe於1995年共同發表。它打破了傳統的圓周率的演算法，可以計算圓周率的任意第n位，而不用計算前面的n-1位。這為圓周率的分布式計算提供了可行性。1997年，Fabrice Bellard找到了一個比BBP快40％的公式：

❽ 基於密度的聚類方法 Density-based clustering

我們生活在數據大爆炸時代，每時每刻都在產生海量的數據如視頻，文本，圖像和博客等。由於數據的類型和大小已經超出了人們傳統手工處理的能力范圍，聚類，作為一種最常見的無監督學習技術，可以幫助人們給數據自動打標簽，已經獲得了廣泛應用。聚類的目的就是把不同的數據點按照它們的相似與相異度分割成不同的簇（注意：簇就是把數據劃分後的子集），確保每個簇中的數據都是盡可能相似，而不同的簇里的數據盡可能的相異。從模式識別的角度來講，聚類就是在發現數據中潛在的模式，幫助人們進行分組歸類以達到更好理解數據的分布規律。

聚類的應用非常廣泛，比如在商業應用方面，聚類可以幫助市場營銷人員將客戶按照他們的屬性分層，發現不同的客戶群和他們的購買傾向（如下圖將客戶按照他們對顏色喜好歸類）。這樣公司就可以尋找潛在的市場，更高效地開發制定化的產品與服務。在文本分析處理上，聚類可以幫助新聞工作者把最新的微博按照的話題相似度進行分類，而快速得出熱點新聞和關注對象。在生物醫學上，可以根據對相似表達譜的基因進行聚類，從而知道未知基因的功能。

由於聚類是無監督學習方法，不同的聚類方法基於不同的假設和數據類型。由於數據通常可以以不同的角度進行歸類，因此沒有萬能的通用聚類演算法，並且每一種聚類演算法都有其局限性和偏見性。也就是說某種聚類演算法可能在市場數據上效果很棒，但是在基因數據上就無能為力了。

聚類演算法很多，包括基於劃分的聚類演算法（如：k-means），基於層次的聚類演算法（如：BIRCH），基於密度的聚類演算法（如：DBSCAN），基於網格的聚類演算法( 如：STING )等等。本文將介紹聚類中一種最常用的方法——基於密度的聚類方法（density-based clustering）。

相比其他的聚類方法，基於密度的聚類方法可以在有噪音的數據中發現各種形狀和各種大小的簇。DBSCAN（Ester, 1996）是該類方法中最典型的代表演算法之一（DBSCAN獲得 2014 SIGKDD Test of Time Award ）。其核心思想就是先發現密度較高的點，然後把相近的高密度點逐步都連成一片，進而生成各種簇。演算法實現上就是，對每個數據點為圓心，以eps為半徑畫個圈（稱為鄰域eps-neigbourhood），然後數有多少個點在這個圈內，這個數就是該點密度值。然後我們可以選取一個密度閾值MinPts，如圈內點數小於MinPts的圓心點為低密度的點，而大於或等於MinPts的圓心點高密度的點（稱為核心點Core point）。如果有一個高密度的點在另一個高密度的點的圈內，我們就把這兩個點連接起來，這樣我們可以把好多點不斷地串聯出來。之後，如果有低密度的點也在高密度的點的圈內，把它也連到最近的高密度點上，稱之為邊界點。這樣所有能連到一起的點就成一了個簇，而不在任何高密度點的圈內的低密度點就是異常點。下圖展示了DBSCAN的工作原理。

由於DBSCAN是靠不斷連接鄰域內高密度點來發現簇的，只需要定義鄰域大小和密度閾值，因此可以發現不同形狀，不同大小的簇。下圖展示了一個二維空間的DBSCAN聚類結果。

DBSCAN演算法偽碼表達如下：

由於DBSCAN使用的是全局的密度閾值MinPts, 因此只能發現密度不少於MinPts的點組成的簇，即很難發現不同密度的簇。其成功與失敗的情況舉例如下：

為了解決其發現不同密度的簇，目前已經有很多新的方法被發明出來，比如OPTICS （ordering points to identify the clustering structure）將鄰域點按照密度大小進行排序，再用可視化的方法來發現不同密度的簇，如下圖所示。OPTICS必須由其他的演算法在可視化的圖上查找「山谷」來發現簇，因此其性能直接受這些演算法的約束。

另外SNN （shared nearest neighbor）採用一種基於KNN（最近鄰）來算相似度的方法來改進DBSCAN。對於每個點，我們在空間內找出離其最近的k個點（稱為k近鄰點）。兩個點之間相似度就是數這兩個點共享了多少個k近鄰點。如果這兩個點沒有共享k近鄰點或者這兩個點都不是對方的k近鄰點，那麼這兩個點相似度就是0。然後我們把DBSCAN裡面的距離公式替換成SNN相似度，重新算每個點的鄰域和密度，就可以發現不同密度的簇了。SNN的核心就是，把原始的密度計算替換成基於每對點之間共享的鄰域的范圍，而忽略其真實的密度分布。SNN的缺點就是必須定義最近鄰個數k, 而且其性能對k的大小很敏感。下圖展示了SNN計算相似度的方法。

2014年Science 雜志刊登了一種基於密度峰值的演算法DP (Clustering by fast search and find of density peaks)，也是採用可視化的方法來幫助查找不同密度的簇。其思想為每個簇都有個最大密度點為簇中心，每個簇中心都吸引並連接其周圍密度較低的點，且不同的簇中心點都相對較遠。為實現這個思想，它首先計算每個點的密度大小（也是數多少點在鄰域eps-neigbourhood內），然後再計算每個點到其最近的且比它密度高的點的距離。這樣對每個點我們都有兩個屬性值，一個是其本身密度值，一個是其到比它密度高的最近點的距離值。對這兩個屬性我們可以生成一個2維圖表（決策圖），那麼在右上角的幾個點就可以代表不同的簇的中心了，即密度高且離其他簇中心較遠。然後我們可以把其他的點逐步連接到離其最近的且比它密度高的點，直到最後連到某個簇中心點為止。這樣所有共享一個簇中心的點都屬於一個簇，而離其他點較遠且密度很低的點就是異常點了。由於這個方法是基於相對距離和相對密度來連接點的，所以其可以發現不同密度的簇。DP的缺陷就在於每個簇必須有個最大密度點作為簇中心點，如果一個簇的密度分布均與或者一個簇有多個密度高的點，其就會把某些簇分開成幾個子簇。另外DP需要用戶指定有多少個簇，在實際操作的時候需要不斷嘗試調整。下圖展示了一個DP生成的決策圖。

除此之外，還可以用密度比估計（Density-ratio estimation）來克服DBSCAN無法發現不同密度簇的缺陷。密度比的核心思想就是對每個點，計算其密度與其鄰域密度的比率，然後用密度比計算替換DBSCAN的密度計算來發現核心點Core point，而其他過程和DBSCAN不變。這樣一來，每個局部高密度點就會被選出來作為核心點，從而發現不同密度的簇。基於這個思想，我們還可以把原始數據按其密度分布進行標准化（ReScale），即把密度高的區域進行擴張，密度低的區域繼續收縮。這樣以來，不同密度的簇就可以變成密度相近的簇了，我們再在標准化後的數據上直接跑DBSCAN就搞定了。這種方法需要用戶設置鄰域范圍來計算密度比，下圖展示了標准化前後的數據分布對比。

基於密度的聚類是一種非常直觀的聚類方法，即把臨近的密度高的區域練成一片形成簇。該方法可以找到各種大小各種形狀的簇，並且具有一定的抗噪音特性。在日常應用中，可以用不同的索引方法或用基於網格的方法來加速密度估計，提高聚類的速度。基於密度的聚類也可以用在流數據和分布式數據中，關於其他方向的應用，詳見（ Aggarwal 2013 ）.

DP: https://au.mathworks.com/matlabcentral/fileexchange/53922-densityclust

DBSCAN, SNN, OPTICS 和 Density-ratio: https://sourceforge.net/projects/density-ratio/

Aggarwal, C. C., & Reddy, C. K. (Eds.). (2013). Data clustering: algorithms and applications. CRC press.

Ankerst, M., Breunig, M. M., Kriegel, H. P., & Sander, J. (1999, June). OPTICS: ordering points to identify the clustering structure. In ACM Sigmod record (Vol. 28, No. 2, pp. 49-60). ACM.

Ertöz, L., Steinbach, M., & Kumar, V. (2003, May). Finding clusters of different sizes, shapes, and densities in noisy, high dimensional data. In Proceedings of the 2003 SIAM International Conference on Data Mining(pp. 47-58). Society for Instrial and Applied Mathematics.

Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1996, August). A density-based algorithm for discovering clusters in large spatial databases with noise. In SIGKDD (Vol. 96, No. 34, pp. 226-231).

Han, J., Pei, J., & Kamber, M. (2011).Data mining: concepts and techniques. Elsevier.

Rodriguez, A., & Laio, A. (2014). Clustering by fast search and find of density peaks.Science,344(6191), 1492-1496.

Zhu, Y., Ting, K. M., & Carman, M. J. (2016). Density-ratio based clustering for discovering clusters with varying densities. Pattern Recognition, Volume 60, 2016, Pages 983-997, ISSN 0031-3203.

❾ Simulink模型編譯的.C文件怎麼讀理解

我印象中和cruise聯合模擬的時候是要選擇avl的tlc文件的。自帶的grt.tlc畢竟是快速原型的c代碼，它會生成除了演算法之外的一大堆比如數據傳遞的其他代碼，根本就不是為了給你看的c代碼的。
這個跟ert.tlc不一樣，ert.tlc生成的代碼可以有鏈接追溯到模型。

❿ 關於java編程思想一個目錄列表器例子的疑問

args 參數怎麼傳遞給程序么？
命令行為例
比如你的程序名DirList
那就命令行下輸入 c:\java DirList 參數1，參數2...
如果是ide 運行的時候有設置運行參數

下面是一個文件查找的實例，吧通配符改改就能實現，找什麼都行啦

import java.io.File;
import java.util.ArrayList;
import java.util.List;

/**
* @author tiwson 2010-06-02
*
*/
public class FileSearcher {

/**
* 遞歸查找文件
*
* @param baseDirName
* 查找的文件夾路徑
* @param targetFileName
* 需要查找的文件名
* @param fileList
* 查找到的文件集合
*/
public static void findFiles(String baseDirName, String targetFileName, List<File> fileList) {
/**
* 演算法簡述：從某個給定的需查找的文件夾出發，搜索該文件夾的所有子文件夾及文件，
* 若為文件，則進行匹配，匹配成功則加入結果集，若為子文件夾，則進隊列。隊列不空，重復上述操作，隊列為空，程序結束，返回結果。
*/
String tempName = null;
// 判斷目錄是否存在
File baseDir = new File(baseDirName);
if (!baseDir.exists() || !baseDir.isDirectory()) {
System.out.println("文件查找失敗：" + baseDirName + "不是一個目錄！");
} else {
String[] filelist = baseDir.list();
for (int i = 0; i < filelist.length; i++) {
File readfile = new File(baseDirName + "\\" + filelist[i]);
// System.out.println(readfile.getName());
if (!readfile.isDirectory()) {
tempName = readfile.getName();
if (FileSearcher.wildcardMatch(targetFileName, tempName)) {
// 匹配成功，將文件名添加到結果集
fileList.add(readfile.getAbsoluteFile());
}
} else if (readfile.isDirectory()) {
findFiles(baseDirName + "\\" + filelist[i], targetFileName, fileList);
}
}
}
}

/**
* 通配符匹配
*
* @param pattern
* 通配符模式
* @param str
* 待匹配的字元串
* @return 匹配成功則返回true，否則返回false
*/
private static boolean wildcardMatch(String pattern, String str) {
int patternLength = pattern.length();
int strLength = str.length();
int strIndex = 0;
char ch;
for (int patternIndex = 0; patternIndex < patternLength; patternIndex++) {
ch = pattern.charAt(patternIndex);
if (ch == '*') {
// 通配符星號*表示可以匹配任意多個字元
while (strIndex < strLength) {
if (wildcardMatch(pattern.substring(patternIndex + 1), str.substring(strIndex))) {
return true;
}
strIndex++;
}
} else if (ch == '?') {
// 通配符問號?表示匹配任意一個字元
strIndex++;
if (strIndex > strLength) {
// 表示str中已經沒有字元匹配?了。
return false;
}
} else {
if ((strIndex >= strLength) || (ch != str.charAt(strIndex))) {
return false;
}
strIndex++;
}
}
return (strIndex == strLength);
}

public static void main(String[] paramert) {
// 在此目錄中找文件
String baseDIR = "C:\\Users\\Administrator\\Desktop\\tmp";
// 找擴展名為txt的文件
String fileName = "*2*.jpg";
List<File> resultList = new ArrayList<File>();
FileSearcher.findFiles(baseDIR, fileName, resultList);
if (resultList.size() == 0) {
System.out.println("No File Fount.");
} else {
for (int i = 0; i < resultList.size(); i++) {
System.out.println(resultList.get(i));// 顯示查找結果。
}
}
}

}

閱讀全文

熱點內容

隨機啟動腳本發布：2025-07-05 16:10:30 瀏覽：529

微博資料庫設計發布：2025-07-05 15:30:55 瀏覽：26

linux485 發布：2025-07-05 14:38:28 瀏覽：306

php用的軟體發布：2025-07-05 14:06:22 瀏覽：757

沒有許可權訪問計算機發布：2025-07-05 13:29:11 瀏覽：433

javaweb開發教程視頻教程發布：2025-07-05 13:24:41 瀏覽：709

康師傅控流腳本破解發布：2025-07-05 13:17:27 瀏覽：244

java的開發流程發布：2025-07-05 12:45:11 瀏覽：689

怎麼看內存卡配置發布：2025-07-05 12:29:19 瀏覽：286

訪問學者英文個人簡歷發布：2025-07-05 12:29:17 瀏覽：835

ert演算法

與ert演算法相關的資訊