當前位置:首頁 » 編程軟體 » 怎樣才能讓編譯程序合並

怎樣才能讓編譯程序合並

發布時間: 2023-04-04 06:23:06

① 高分求助在線等:將2個匯編程序合成一個

在編寫和調試C6000程序時,為了使C6000代碼獲得最好的性能,我們需要按照軟體編程的3個階段進行,每個階段完成的任務如下[4]:

第一階段:開始可以不考慮C6000的有關知識,完全根據任務編寫c語言程序。在CCS環境下用C6000的代碼產生工具,編譯產生在C6000內運行的代碼,證明其功能正確。然後再用CCS的調試工具,如debug和profiler等,分析確定代碼可能存在的、影響性能的低效率段。為進一步改進代碼性能,需要進入第二階段。

第二階段:利用內聯函數、CCS編譯選項和其他具體優化方法改進C語言程序。重復第一階段,檢查所產生的C6000代碼性能。如果產生的代碼仍不能達到所期望的性能,則進入第三階段。

第三階段:從C語言程序中抽出對性能影響很大的程序段,用線性匯編重新編寫,再用匯編優化器優化,鏈接,直到達到所期望的性能要求。

具體到G.729A標准編解碼器的實時要求,第三階段是工作的重點,而且線性匯編的重新編寫要求對程序代碼和DSP的特性有充分的了解。

3. G.729A代碼的剖析

CCS集成開發環境為軟體開發人員提供了高效的開發、調試工具。特別是它提供了評價器( profiler)的優化工具,通過收集在指定代碼區間程序執行的統計性能,分析確定程序中各個段、各個子函數所花費的處理器時間,從而把程序的優化集中在對程序性能影響最大的代碼段上去[5]。其兩種不同的測試方法是:

(1) 在需要測定復雜度的程序段的開頭和結尾處設定兩個斷點,打開時鍾窗口,運行程序。在第一個斷點處執行停止,這時雙擊時鍾窗口使之清0,接著繼續執行程序,在第二個斷點處停止,這時,時鍾窗口顯示的值便是該段代碼的復雜度。這在測試程序中一個函數的復雜度是非常有用的。

(2) 先打開統計窗口,在需要測試的程序段頭尾設置統計點((Probe Point)。程序運行結束後,統計窗口內該程序段後面的統計值便是該代碼段的復雜度。這種方法較簡單,統計點自動收集統計信息,無需手工干涉,這在測定程序多段代碼的復雜度是非常有用。

4. 線性匯編的優化

線性匯編是TI提供的一種匯編語言,其指令系統和匯編語言的指令系統完全相同,但在編寫時不需要指定寄存器和操作單元,也不需要考慮延時的問題,因此編寫線性匯編相對要容易一些 [6]。

經過第一階段和第二階段的優化後,音頻編碼程序在DM642上的運行狀況有了很大改善,但是經測試仍然沒有到達實時效果,而高級語言的效率幾乎發揮到了極致,測試的速度達到了36.5幀/s,是未優化之前的10倍。這時,我們採用線性匯編語言重新編寫C代碼的低效率段程序,進一步提高程序的執行效率和充分利用DM642的硬體資源,最終按設計要求在DM642實時實現G.729A編碼。在前面的DSP開發流程已經提過,DSP開發的最後一個手段是用匯編重寫C代碼,它是唯一可以既提高程序執行速度又可以減少程序體積的方法。由於針對並行處理器編寫匯編的難度很大,一般採取的是混合編程的方法,即程序的主要部分用C代碼,部分耗時較大的函數可以用線性匯編改寫。

在編寫線性匯編優化代碼的過程中,為了提高代碼執行效率,我們需要遵循以下原則[7]:

(1)寫並行代碼:通過使用匯編指令並行執行的方法減少循環內的執行周期數,優化線性匯編代碼。這里的關鍵問題是弄清指令相關性,只有不相關的指令才能並行執行。辨別指令是否相關,可以使用相關圖。

(2)處理跳轉指令和轉移指令:匯編程序的一大特點就是頻繁地跳轉,當滿足不同的條件時,要求程序進行不同的操作,或跳到相應的位置。對於「大於」、「大於等於」、「小於」、「小於等於」等較為接近的邏輯判斷和處理,應慎重對待,否則將產生邏輯性錯誤,並且很難調試。當發生溢出需進行相應處理時,這種現象尤為突出。

(3)盡量減少循環體內的指令數:G.729A的演算法實現,有許多是在循環內部完成的,有些地方如固定碼本搜索過程中,為了確定四個非0脈沖的位置和幅度,還用到了多重循環。在循環內部,特別是在嵌套較深的循環內部,減少一條指令可以大大降低程序的操作次數。例如,對於一個每重循環8次的四重嵌套循環,在最內層循環每減少一條指令,整個程序可以少執行84=4096語句。因此在設計程序時,能夠放在循環體外執行的語句,盡量放在循環體外執行。

(4)展開程序體:在一定條件下,盡量展開程序,以減少子程序的調用和返回次數,犧牲空間換取時間。

G.729A演算法中的LPC模塊、LSP量化及激勵碼本搜索耗時最多,為進一步提高代碼效率,對相關計算、FIR濾波等部分函數用線性匯編語言進行了改寫,並用畫相關圖等方法有針對性的進行優化。經匯編優化器優化後,代碼效率比C語言直接編譯有明顯提高。

5. 優化工作的創新點

在對G.729A的優化中,本文在前人研究成果的基礎上,針對TMS320DM642 DSP系列晶元提出了一些有價值的新方法。這些創新點在不同程度上提高了代碼的優化速度和執行效率,在語音編解碼的DSP實時實現中起到了關鍵性作用。下面,以舉例的方式闡明一些經典的方法。

5.1 繪制分析圖,掌握函數結構

對於一個語句較多、結構復雜的函數,為了充分了解其邏輯結構和語句的相關性,我們通常採用畫分析圖的方法。分析圖的形式比較靈活,可以根據具體的情況選用不同的制圖工具。在編寫線性匯編的時候,需要考慮存取數組中的元素,數據打包操作和數據相關性等問題,分析圖有助於正確處理這些問題。

在對函數Cor_h_X( )優化過程中,我們遇到了一定的困難,原因在於其中有一個雙層的循環體,內層的次數與外層有關,外層的循環次數為40,並且循環內部的語句有先後的相關性。這樣的結構如果用循環展開的方法將會用到大量的寄存器,數目超出了64個,需要開辟額外的內存空間去存放臨時變數,而讀寫內存會消耗較多的時間,因此這樣執行效率不會有充分的提高。對此,我們利用分析圖描述了函數中關鍵代碼的數組X[ ],h[ ]的使用情況,如圖1所示:

圖1 cor_h_X( )函數分析圖(部分)

圖1直觀地反映了數組16位h[ ]和16位X[ ]之間的乘加關系,從函數cor_h_X( )中可知,兩個數組的乘積之和要對應的保存在臨時數組32位Y[ ]中。通過研究此分析圖,我們發現h[ ]與X[ ]中的一些元素進行乘積和處理之後就不再被使用,那麼存儲這些元素的寄存器可以存放中間結果(Y[]的元素),這樣就可節省寄存器的使用個數,免去了開辟內存空間和中間變數的存取指令。

對於函數cor_h_X( ),利用上述思想編寫線性匯編,只需要定義57個寄存器就可以完成所用的操作,存取指令從1760條優化到30條,僅為原來的1/60。同時執行速度從390072個時鍾減少到35871個,降為原來的1/10。

繪制的分析圖可以包含相關圖,相關表等,使資源安排更加合理。該方法在其他函數的改寫中也多次使用到。

5.2 功能相似的函數或代碼段合並為一個函數

線性匯編在提高代碼效率的同時也成倍的增加了代碼尺寸,以上述cor_h_X( )為例,它在該寫後代碼尺寸從660條增大到7776條(該數據由CCS剖析工具分析所得)。在工程應用中,對於有限的內存程序區,我們會適當減少程序佔用的空間。合並功能相似的函數可以達到這一要求。

在LSP量化處理中,源代碼中給出了2個LSP選擇函數:Lsp_select_1( )和Lsp_select_2( ),而我們發現它們具有相同的功能和相似的結構,因此,在對兩者的線性匯編改寫中,我們只需編寫一個函數(命名為Lsp_select)即可實現LSP量化處理中這兩個模塊的功能。

另外,在對於一些數組拷貝,數組初始化的代碼,我們同樣可以用此方法,編寫一個函數實現,這樣可以在提高執行效率的同時,減少程序佔用的內存空間。

5.3 多個循環合並為一個循環

C代碼改寫線性匯編的時候,我們常常會發現,只要作一些調整,兩個或多個循環完成的操作完全可以由一個循環來完成。以LPC子模塊240點加窗語音的自相關計算Autocorr()函數為例,經過優化改寫的C代碼(部分)如下:

for(i=0; i<L_WINDOW; i++) //第一個循環體

y[i] = (_smpy(x[i], hamwindow[i])+0x00008000L)>>16;

sum = 1; //避免為0的情況

for(i=0; i<L_WINDOW; i++) //第二個循環體

sum = _sadd(sum,_smpy(y[i], y[i]));

這段代碼包含了兩個for循環,在CCS中直接編譯運行並行度很差,利用線性匯編重寫代碼。我們發現兩個循環體的循環次數均為60(L_WINDOW=60),所處理的數組不同,並且兩個循環沒有相關性,可以把第一和第二個循環合並成一個循環。前者的功能是對語音信號進行加窗;後者是實現乘累加(Mac)。兩者合並後採用線性匯編編寫,其代碼如下:

mvk 60,i //設置循環次數

loop1: lddw *ham++,hamih:hamil //hamwindow[]指針

lddw *x++,xih:xil //x[]指針

smpy2 hamil,xil,yi1:yi0 //兩對16位操作數相承,並行執行

smpy2 hamih,xih,yi3:yi2

sadd yi0,con0x8000,yi0

sadd yi1,con0x8000,yi1

sadd yi2,con0x8000,yi2

sadd yi3,con0x8000,yi3

packh2 yi1,yi0,yl //數據打包技術

packh2 yi3,yi2,yh

stdw yh:yl,*y++ //雙字存取,提高執行效率

smpy2 yl,yl,yi1:yi0

sadd sum0,yi1,sum0

sadd sum0,yi0,sum0

smpy2 yh,yh,yi3:yi2

sadd sum0,yi3,sum0

sadd sum0,yi2,sum0

add i,-1,i

[i] b loop1 //把第一和第二個循環合成一個大循環,減少轉移次數

產生的匯編代碼並行流水性能大大增加,耗費的時鍾周期數從1310000減少到15000,少於改編前的1/8。

6. 結束語

關於編解碼器執行的時鍾周期,在線性匯編改寫前後,文件版本通過CCS的profiler剖析工具得知:每10幀(100MS)從159700000降至68500000,僅為原來的42%。硬體版本進行測試得:編解碼的幀數提高到了88幀/s以上,鑒於編碼、解碼的時間比例為5:1,所以,本系統編碼已經達到100幀/s,完全符合實時通信的要求。

② VS2008中如何合並已編譯的項目(VC++)

此類問題我在VC++6和VS2010經常用到,我想VS2008應該一樣,要想把幾個工程合並在一個項目里,要用到項目依賴關系,現簡單以VS2010說明,先將工程全部加到一個項目里,在打開項目引用,在通用屬性的框架和引用里,可添加和刪除相關相關引用關系;在配置屬性里c/c++的常規屬性里附加目錄將你的依賴關系工程目錄包含(如../Basic;),在鏈接器的常規屬性里輸出文件將你的鏈接執行的文件輸出到同一個目錄下(如../Builds/Debug/TestPID.exe),這樣便於鏈接調試,否則會找不到相關文件,好的慢慢體會吧

③ 編程完之後是怎樣把那些文件(.cpp .h.....)整合成一個可安裝的安裝的呢

如果你是用gcc編譯:
gcc最基本的用法是∶gcc [options] [filenames]

其中options就是編譯器所需要的參數,filenames給出相關的文件名稱。

-c,只編譯,不連接成為可執行文件,編譯器只是由輸入的.c等源代碼文件生成.o為後綴的目標文件,通常用於編譯不包含主程序的子程序文件。

-o output_filename,確定輸出文件的名稱為output_filename,同時這個名稱不能和源文件同名。如果不給出這個選項,gcc就給出預設的可執行文件a.out。

-g,產生符號調試工具(GNU的gdb)所必要的符號資訊,要想對源代碼進行調試,我們就必須加入這個選項。

-O,對程序進行優化編譯、連接,採用這個選項,整個源代碼會在編譯、連接過程中進行優化處理,這樣產生的可執行文件的執行效率可以提高,但是,編譯、連接的速度就相應地要慢一些。

-O2,比-O更好的優化編譯、連接,當然整個編譯、連接過程會更慢。

-Idirname,將dirname所指出的目錄加入到程序頭文件目錄列表中,是在預編譯過程中使用的參數。C程序中的頭文件包含兩種情況∶

A)#include <myinc.h>

B)#include 「myinc.h」

其中,A類使用尖括弧(< >),B類使用雙引號(「 」)。對於A類,預處理程序cpp在系統預設包含文件目錄(如/usr/include)中搜尋相應的文件,而B類,預處理程序在目標文件的文件夾內搜索相應文件。

最簡單的:
終端里輸入gcc helloworld.c -o helloworld
helloworld就是生產的可執行程序,然後執行./helloworld就可以打開了

④ 如何將兩個c語言源程序合並在一起編譯成一個hex文件,使之發揮不同的作用。如圖

好像不能吧,每個程序中只能有一個main函數的,也只能轉換成一個hex文件,
兩個的話,只能改程序

熱點內容
java日期之間的天數 發布:2025-07-16 08:21:38 瀏覽:960
我的世界挖鑽石賺錢的伺服器 發布:2025-07-16 08:15:18 瀏覽:722
python進程獲取 發布:2025-07-16 08:15:10 瀏覽:406
安卓系統優盤打不開怎麼回事 發布:2025-07-16 08:14:34 瀏覽:762
貓耳fm上傳 發布:2025-07-16 08:13:42 瀏覽:470
php培訓學費多少 發布:2025-07-16 07:56:15 瀏覽:521
輸入url或伺服器地址 發布:2025-07-16 07:47:46 瀏覽:295
iphone便捷訪問有什麼用 發布:2025-07-16 07:46:59 瀏覽:843
16進制的字元串java 發布:2025-07-16 07:39:54 瀏覽:439
一加手機安卓11怎麼分屏 發布:2025-07-16 07:32:35 瀏覽:87