並行編譯架構

發布時間: 2022-12-24 01:15:48

㈠如何評價CUDA，OpenCL，OpenMP，OpenACC等主流並行運算框架

PGI和Cray才是最早推動這項技術商業化的公司。PGI已經推出了一組非常類似的加速器指令，目前也成為了OpenACC標準的基礎部分之一。Cray公司正在開發自己的OpenACC編譯器，並且他的XK6客戶如橡樹嶺國家實驗室和瑞士國家超級計算機中心，預計將成為該技術的第一批超級計算機用戶。
簡而言之，OpenACC指令與OpenMP指令工作方式很類似，但前者特別適用於高度數據並行代碼。它們可插入標準的C，C + +和Fortran程序直接指導編譯器進行某些代碼段的並行。編譯器會特別注意數據在CPU和GPU（或其他）之間來回轉移的邏輯關系，並將計算映射到適當的處理器上。
這樣，開發人員就可以在現存的或者新的代碼上做相對小的改動以標示出加速並行區域。由於指令設計適用於一個通用並行處理器，這樣相同的代碼可以運行在多核CPU、GPU或任何編譯器支持的其他類型的並行硬體上。這種硬體的獨立性對於HPC的用戶來說特別重要，因為他們不願意接受那種受供應商限制的，非攜帶型編程環境。

㈡著名計算機科學家高光榮享年76歲逝世

著名計算機科學家高光榮享年76歲逝世

著名計算機科學家高光榮享年76歲逝世，著名計算機科學家、數據流體系結構領域的先驅人物、美國特拉華大學電子與計算機工程系終身教授高光榮逝世，享年76歲。他是中國在MIT的第一位計算機博士

著名計算機科學家高光榮享年76歲逝世1

剛剛，新智元獲悉，傑出的華人科學家、美國特拉華大學電子與計算機工程系終身教授、數據流體系結構的先驅人物高光榮逝世，享年76歲。

高光榮，1945年生，1968年畢業於清華大學電機系，獲學士學位。分別於 1982 年和 1986 年獲得麻省理工學院計算機科學碩士、博士學位，是中國在MIT的第一位計算機博士。

高光榮生前任特拉華大學紐瓦克分校名譽教授，計算機體系結構與並行系統實驗室 (CAPSL) 的創始主任、清華大學特聘客座教授和中國幾所頂尖大學的客座教授。

他的研究領域包括：高性能計算和數據流模型、計算機體系結構和系統、編譯器技術和運行時系統、數據流模型下的程序分析、映射和優化。

高光榮2007年當選為IEEE Fellow 和ACM Fellow。2017年獲得「羅摩克里希納·勞獎」，以表彰他在「指令級並行和數據級並行編譯技術以及微架構研究領域的卓越貢獻」。他是來自中國大陸第一位獲得該獎項的科學家。

生前發表300多篇論文，在同行評審國際會議和研討會中獲得多項最佳論文獎。他發起成立了多項頂級國際會議和研討會，並在大量著名的國際會議和研討會上（如 HPCA、MICRO、PACT、PLDI、PPoPP、SC、CF、 ICS、IPDPS、MICRO、EuroPar、CASES等）擔任會員，並擔任多個國際期刊的編委。

高光榮培養了博士生30餘人，指導博士後20餘人。他們中的許多人有的進入世界各地的大學任教，有的成為創業公司的創始人。其中美團創始人王興，就是高光榮的學生之一。王興2005年獲美國特拉華大學計算機工程碩士學位。讀高光榮的博士，沒讀完就回國創業。

各方悼念華中科技大學發來唁電

不幸的消息傳來，業內不少專家學者第一時間紛紛通過社交媒體悼念高光榮教授。

華為操作系統首席科學家、中央軟體院副總裁、OS內核實驗室主任陳海波表示：

早上起床就看到這個悲痛的消息。高先生是新中國成立後MIT的第一位來自中國的計算機博士，一直致力於計算機體系結構和編譯器的研究，培養了大批計算機人才。

高先生也長期致力於我國體系結構與編譯器技術的提升，多次和我說要一起多為我國體系結構與編譯器領域多做貢獻，2018年還專程回國組織了專題論壇，並主持了「人工智慧和大數據應用對計算機系統的挑戰」。聽說高先生昨天還是操勞ICPP 50周年的事情。

沉痛悼念高老師！高老師千古！

CCF傑出會員、中國科學院計算技術研究所研究員韓銀河表示：

沉痛悼念高光榮老師。高老師是數據流體系結構的先驅，影響了計算機體系結構、編譯器等多個領域。高老師非常關注國內的計算機體系結構方向的發展，組織過很多課程和討論會，為中國的很多年輕體系結構學者指明了奮斗的方向。

高老師千古。

原華中科技大學計算機學院金海教授表示：

沉痛悼念世界級的計算機科學家、華中科技大學傑出校友、CCF海外傑出貢獻獎獲得者高光榮老師！高老師是MIT計算機專業畢業的我國第一位博士，是我在數據流研究領域的引路人，我目前承擔的國家自然科學基金委數據流重點基金就是在高老師的指導下獲得的，我們目前的圖計算機研發思路也是遵循高老師的數據流思想進行設計的。先生風范，高山仰止！高老師，我們永遠懷念您！

加州大學聖芭芭拉分校教授，IEEE Fellow謝源教授表示：

華中科技大學也發來唁電，深切緬懷這位傑出校友。

中國計算機學會（CCF）網站稱，高光榮教授作為傑出的華人學者，始終心繫中國計算機領域的發展，以其優異的學術造詣、廣泛的'國際影響力在人才培養，重大科研攻關中發揮著至關重要的作用，為我國計算機的發展，特別是在系統結構，高性能計算等領域爭搶、保持國際先進水平做出了傑出貢獻。

認為數據流與AI存在「天然聯系」，未來將迎來「中國主導」

高光榮認為，數據流與AI之前存在「天然聯系」。

此前，在2017年接受媒體采訪時，他曾表示，在計算機體系結構的設計中，誕生過很多種想法，但數據流是「活得最長、最有生命力的」。而由於數據流與AI之間的「天然聯系」，他也更看好數據流的前景。

歷史上人工智慧的低潮，與數據流的低潮幾乎是一致的。而人工智慧計算往往是「不規則的」或「非既定的」，這也與數據流善於並行處理不規則的事情的特點非常相像。

高光榮認為，就像人腦一樣，計算機數據流的思想強調『並行』和『不規則計算』，從這個角度上來講，數據流思想或將對未來AI發展帶來長足的支持。」

眼下AI如火如荼、熱火朝天，數據流也有望再次「回春」。在國力強大的大環境下，中國多年來在人才吸引和培養方面的努力也到了兌現的時刻。

「年輕人都起來了，開放的窗口也開得越來越好，越來越多的高水平人員來中國交流，有的乾脆回來工作——數據流正迎來『中國主導』的機會。」

悼念高光榮先生！

著名計算機科學家高光榮享年76歲逝世2

近日，美國特拉華大學電子與計算機工程系終身教授、數據流體系結構的先驅人物高光榮逝世，享年76歲。

近日，傑出的華人科學家、美國特拉華大學電子與計算機工程系終身教授、數據流體系結構的先驅人物高光榮逝世，享年76歲。

高光榮，1968年畢業於清華大學無線電系，1980年在華中科大讀研期間出國學習，並於1982年獲美國麻省理工學院碩士學位。1986 年於美國麻省理工學院獲博士學位，是新中國成立後第一位獲得麻省理工學院計算機博士的學者。

1987 年，高光榮開始任教於加拿大麥吉爾大學，任終身教授，現任美國特拉華大學電子與計算機工程系終身教授，特拉華大學計算機系統結構和並行系統實驗室的創始人和領導者，並兼任清華大學客座教授、中科院客座研究員兼聯合實驗室主任、上海交通大學致遠學院海外特聘教授、華中科技大學特聘教授及北京理工大學特聘教授。2007 年，高光榮獲得美國計算機協會和美國電子電氣工程師協會資深會員榮譽，也是第一位獲得雙資深會員的大陸學者

高教授的研究集中在數據流模型、並行計算、計算機系統架構、程序分析與優化技術等方面，包括：（1）針對計算，分析，延展的數據流模型；（2）基於數據流的多線程編程/執行模型；（3）計算機系統架構；（4）基於數據流的編譯優化模型；（5）軟體流水線；（6）程序分析技術。

高光榮教授獲得2017年度羅摩克里希納·勞獎

高光榮2007年當選為IEEE Fellow 和ACM Fellow。2017年獲得「羅摩克里希納·勞獎」（B. Ramakrishna Rau Award），成為全球第7位該獎項得主，也是第一位獲得該獎項的來自大陸的華人科學家以表彰他在「指令級並行和數據級並行編譯技術以及微架構研究領域的卓越貢獻」。

高光榮教授獲中國計算機學會（CCF）「2013年度海外傑出貢獻獎」。據悉，「CCF海外傑出貢獻獎」授予為中國計算機事業作出突出貢獻的海外個人，此獎項由國內學者聯合提名，每年選出1位獲得者，競爭激烈。自此獎項創建以來，共有8位海外人士獲此榮譽。

㈢急！！！！急！！！！！！！！！急！！！！！計算機體系結構這門課所解決的問題以及解決的方法在線等

計算機體系結構（ComputerArchitecture）是程序員所看到的計算機的屬性，即概念性結構與功能特性。按照計算機系統的多級層次結構，不同級程序員所看到的計算機具有不同的屬性。一般來說，低級機器的屬性對於高層機器程序員基本是透明的，通常所說的計算機體系結構主要指機器語言級機器的系統結構。經典的關於「計算機體系結構（computerarchitecture）」的定義是1964年C.M.Amdahl在介紹IBM360系統時提出的，其具體描述為「計算機體系結構是程序員所看到的計算機的屬性，即概念性結構與功能特性」

基本概念
計算機體系結構就是指適當地組織在一起的一系列系統元素的集合，這些系統元素互相配合、相互協作，通過對信息的處理而完成預先定義的目標。通常包含的系統元素有：計算機軟體、計算機硬體、人員、資料庫、文檔和過程。其中，軟體是程序、數據結構和相關文檔的集合，用於實現所需要的邏輯方法、過程或控制；硬體是提供計算能力的電子設備和提供外部世界功能的電子機械設備(例如感測器、馬達、水泵等)；人員是硬體和軟體的用戶和操作者；資料庫是通過軟體訪問的大型的、有組織的信息集合；文檔是描述系統使用方法的手冊、表格、圖形及其他描述性信息；過程是一系列步驟，它們定義了每個系統元素的特定使用方法或系統駐留的過程性語境。計算機體系結構
8種屬性
1•機內數據表示：硬體能直接辨識和操作的數據類型和格式計算機體系結構
2•定址方式：最小可定址單位、定址方式的種類、地址運算 3•寄存器組織：操作寄存器、變址寄存器、控制寄存器及專用寄存器的定義、數量和使用規則 4•指令系統：機器指令的操作類型、格式、指令間排序和控制機構 5•存儲系統：最小編址單位、編址方式、主存容量、最大可編址空間 6•中斷機構：中斷類型、中斷級別，以及中斷響應方式等 7•輸入輸出結構：輸入輸出的連接方式、處理機/存儲器與輸入輸出設備間的數據交換方式、數據交換過程的控制 8•信息保護：信息保護方式、硬體信息保護機制。
編輯本段發展歷程
計算機系統已經經歷了四個不同的發展階段。計算機體系結構
第一階段
60年代中期以前，是計算機系統發展的早期時代。在這個時期通用硬體已經相當普遍，軟體卻是為每個具體應用而專門編寫的，大多數人認為軟體開發是無需預先計劃的事情。這時的軟體實際上就是規模較小的程序，程序的編寫者和使用者往往是同一個(或同一組)人。由於規模小，程序編寫起來相當容易，也沒有什麼系統化的方法，對軟體開發工作更沒有進行任何管理。這種個體化的軟體環境，使得軟體設計往往只是在人們頭腦中隱含進行的一個模糊過程，除了程序清單之外，根本沒有其他文檔資料保存下來。
第二階段
從60年代中期到70年代中期，是計算機系統發展的第二代。在這10年中計算機技術有了很大進步。多道程序、多用戶系統引入了人機交互的新概念，開創了計算機應用的新境界，使硬體和軟體的配合上了一個新的層次。實時系統能夠從多個信息源收集、分析和轉換數據，從而使得進程式控制制能以毫秒而不是分鍾來進行。在線存儲技術的進步導致了第一代資料庫管理系統的出現。計算機系統發展的第二代的一個重要特徵是出現了「軟體作坊」，廣泛使用產品軟體。但是，「軟體作坊」基本上仍然沿用早期形成的個體化軟體開發方法。隨著計算機應用的日益普及，軟體數量急劇膨脹。在程序運行時發現的錯誤必須設法改正；用戶有了新的需求時必須相應地修改程序；硬體或操作系統更新時，通常需要修改程序以適應新的環境。上述種種軟體維護工作，以令人吃驚的比例耗費資源。更嚴重的是，許多程序的個體化特性使得它們最終成為不可維護的。「軟體危機」就這樣開始出現了。1968年北大西洋公約組織的計算機科學家在聯邦德國召開國際會議，討論軟體危機課題，在這次會議上正式提出並使用了「軟體工程」這個名詞，一門新興的工程學科就此誕生了。
第三階段
計算機系統發展的第三代從20世紀70年代中期開始，並且跨越了整整10年。在這10年中計算機技術又有了很大進步。分布式系統極大地增加亍計算機系統的復雜性，區域網、廣域網、寬頻數字通信以及對「即時」數據訪問需求的增加，都對軟體開發者提出了更高的要求。但是，在這個時期軟體仍然主要在工業界和學術界應用，個人應用還很少。這個時期的主要特點是出現了微處理器，而且微處理器獲得了廣泛應用。以微處理器為核心的「智能」產品隨處可見，當然，最重要的智能產品是個人計算機。在不到10年的時間里，個人計算機已經成為大眾化的商品。在計算機系統發展的第四代已經不再看重單台計算機和程序，人們感受到的是硬體和軟體的綜合效果。由復雜操作系統控制的強大的桌面機及區域網和廣域網，與先進的應用軟體相配合，已經成為當前的主流。計算機體系結構已迅速地從集中的主機環境轉變成分布的客戶機／伺服器(或瀏覽器／伺服器)環境。世界范圍的信息網為人們進行廣泛交流和資源的充分共享提供了條件。軟體產業在世界經濟中已經佔有舉足輕重的地位。隨著時代的前進，新的技術也不斷地涌現出來。面向對象技術已經在許多領域迅速地取代了傳統的軟體開發方法。
總結
軟體開發的「第四代技術」改變了軟體界開發計算機程序的方式。專家系統和人工智慧軟體終於從實驗室中走出來進入了實際應用，解決了大量實際問題。應用模糊邏輯的人工神經網路軟體，展現了模式識別與擬人信息處理的美好前景。虛擬現實技術與多媒體系統，使得與用戶的通信可以採用和以前完全不同的方法。遺傳演算法使我們有可能開發出駐留在大型並行生物計算機上的軟體。
編輯本段基本原理
計算機體系結構解決的是計算機系統在總體上、功能上需要解決的問題，它和計算機組成、計算機實現是不同的概念。一種體系結構可能有多種組成，一種組成也可能有多種物理實現。計算機體系結構
計算機系統結構的邏輯實現，包括機器內部數據流和控制流的組成以及邏輯設計等。其目標是合理地把各種部件、設備組成計算機，以實現特定的系統結構，同時滿足所希望達到的性能價格比。一般而言，計算機組成研究的范圍包括：確定數據通路的寬度、確定各種操作對功能部件的共享程度、確定專用的功能部件、確定功能部件的並行度、設計緩沖和排隊策略、設計控制機構和確定採用何種可靠技術等。計算機組成的物理實現。包括處理機、主存等部件的物理結構，器件的集成度和速度，器件、模塊、插件、底板的劃分與連接，專用器件的設計，信號傳輸技術，電源、冷卻及裝配等技術以及相關的製造工藝和技術。
編輯本段分類
Flynn分類法
1966年，Michael.J.Flynn提出根據指令流、數據流的多倍性（multiplicity）特徵對計算機系統進行分類，定義如下。 •指令流：機器執行的指令序列計算機體系結構
•數據流：由指令流調用的數據序列，包括輸入數據和中間結果 •多倍性：在系統性能瓶頸部件上同時處於同一執行階段的指令或數據的最大可能個數。 Flynn根據不同的指令流-數據流組織方式把計算機系統分為4類。 1•單指令流單數據流（，SISD） SISD其實就是傳統的順序執行的單處理器計算機，其指令部件每次只對一條指令進行解碼，並只對一個操作部件分配數據。 2•單指令流多數據流（，SIMD） SIMD以並行處理機為代表，結構如圖，並行處理機包括多個重復的處理單元PU1～PUn，由單一指令部件控制，按照同一指令流的要求為它們分配各自所需的不同的數據。 3•多指令流單數據流（，MISD） MISD的結構，它具有n個處理單元，按n條不同指令的要求對同一數據流及其中間結果進行不同的處理。一個處理單元的輸出又作為另一個處理單元的輸入。 4•多指令流多數據流（，MIMD） MIMD的結構，它是指能實現作業、任務、指令等各級全面並行的多機系統，多處理機就屬於MIMD。（2）
馮式分類法
1972年馮澤雲提出用最大並行度來對計算機體系結構進行分類。所謂最大並行度Pm是指計算機系統在單位時間內能夠處理的最大的二進制位數。設每一個時鍾周期△ti內能處理的二進制位數為Pi，則T個時鍾周期內平均並行度為Pa=(∑Pi)／T(其中i為1，2，…，T)。平均並行度取決於系統的運行程度，與應用程序無關，所以，系統在周期T內的平均利用率為μ=Pa/Pm=(∑Pi)/(T*Pm)。用最大並行度對計算機體系結構進行的分類。用平面直角坐標系中的一點表示一個計算機系統，橫坐標表示字寬(N位)，即在一個字中同時處理的二進制位數；縱坐標表示位片寬度(M位)，即在一個位片中能同時處理的字數，則最大並行度Pm=N*M。由此得出四種不同的計算機結構： ①字串列、位串列(簡稱WSBS)。其中N＝1，M＝1。 ②字並行、位串列(簡稱WPBS)。其中N＝1，M>1。 ③字串列、位並行(簡稱WSBP)。其中N>1，M＝1。 ④字並行、位並行(簡稱WPBP)。其中N>1，M>1。
編輯本段技術革新
計算機體系結構以圖靈機理論為基礎，屬於馮•諾依曼體系結構。本質上，圖靈機理論和馮•諾依曼體系結構是一維串列的，而多核處理器則屬於分布式離散的並行結構，需要解決二者的不匹配問題。首先，串列的圖靈機模型和物理上分布實現的多核處理器的匹配問題。圖靈機模型意味著串列的編程模型。串列程序很難利用物理上分布實現的多個處理器核獲得性能加速.與此同時,並行編程模型並沒有獲得很好的推廣，僅僅局限在科學計算等有限的領域.研究者應該尋求合適的機制來實現串列的圖靈機模型和物理上分布實現的多核處理器的匹配問題或縮小二者之間的差距，解決「並行程序編程困難，串列程序加速小」的問題。計算機體系結構
在支持多線程並行應用方面，未來多核處理器應該從如下兩個方向加以考慮。第一是引入新的能夠更好的能夠表示並行性的編程模型。由於新的編程模型支持編程者明確表示程序的並行性，因此可以極大的提升性能。比如Cell處理器提供不同的編程模型用於支持不同的應用。其難點在於如何有效推廣該編程模型以及如何解決兼容性的問題。第二類方向是提供更好的硬體支持以減少並行編程的復雜性。並行程序往往需要利用鎖機制實現對臨界資源的同步、互斥操作，編程者必須慎重確定加鎖的位置，因為保守的加鎖策略限制了程序的性能，而精確的加鎖策略大大增加了編程的復雜度。一些研究在此方面做了有效的探索。比如，SpeculativeLockElision機制允許在沒有沖突的情況下忽略程序執行的鎖操作，因而在降低編程復雜度的同時兼顧了並行程序執行的性能。這樣的機制使得編程者集中精力考慮程序的正確性問題，而無須過多地考慮程序的執行性能。更激進的，(TCC)機制以多個訪存操作（Transaction）為單位考慮數據一致性問題，進一步簡化了並行編程的復雜度。主流的商業多核處理器主要針對並行應用，如何利用多核加速串列程序仍然是一個值得關注的問題。其關鍵技術在於利用軟體或硬體自動地從串新程序中派生出能夠在多核處理器上並行執行的代碼或線程。多核加速串列程序主要有三種方法，包括並行編譯器、推測多線程以及基於線程的預取機制等。在傳統並行編譯中，編譯器需要花費很大的精力來保證擬劃分線程之間不存在數據依賴關系。編譯時存在大量模糊依賴，尤其是在允許使用指針（如C程序）的情況下，編譯器不得不採用保守策略來保證程序執行的正確性。這大大限制了串列程序可以挖掘的並發程度，也決定了並行編譯器只能在狹窄范圍使用。為解決這些問題，人們提出推測多線程以及基於線程的預取機制等。然而，從這種概念提出到現在為止，這個方向的研究大部分局限於學術界，僅有個別商業化處理器應用了這種技術，並且僅僅局限於特殊的應用領域。我們認為動態優化技術和推測多線程（包括基於線程的預取機制）的結合是未來的可能發展趨勢。馮•諾依曼體系結構的一維地址空間和多核處理器的多維訪存層次的匹配問題。本質上，馮•諾依曼體系結構採用了一維地址空間。由於不均勻的數據訪問延遲和同一數據在多個處理器核上的不同拷貝導致了數據一致性問題。該領域的研究分為兩大類：一類研究主要是引入新的訪存層次。新的訪存層次可能採用一維分布式實現方式。典型的例子是增加分布式統一編址的寄存器網路。全局統一編址的特性避免了數據一致性地考慮。同時，相比於傳統的大容量cache訪問，寄存器又能提供更快的訪問速度。TRIPS和RAW都有實現了類似得寄存器網路。令另外，新的訪存層次也可以是私有的形式。比如每個處理器和都有自己私有的訪存空間。其好處是更好的劃分了數據存儲空間，已洗局部私有數據沒有必要考慮數據一致性問題。比如Cell處理器為每個SPE核設置了私有的數據緩沖區。另一類研究主要涉及研製新的cache一致性協議。其重要趨勢是放鬆正確性和性能的關系。比如推測Cache協議在數據一致性未得到確認之前就推測執行相關指令，從而減少了長遲訪存操作對流水線的影響。此外，TokenCoherence和TCC也採用了類似的思想。程序的多樣性和單一的體系結構的匹配問題。未來的應用展現出多樣性的特點。一方面，處理器的評估不僅僅局限於性能，也包括可靠性，安全性等其他指標。另一方面，即便考慮僅僅追求性能的提高，不同的應用程序也蘊含了不同層次的並行性。應用的多樣性驅使未來的處理器具有可配置、靈活的體系結構。TRIPS在這方面作了富有成效的探索，比如其處理器核和片上存儲系統均有可配置的能力，從而使得TRIPS能夠同時挖掘指令級並行性、數據級並行性及指令級並行性。多核和Cell等新型處理結構的出現不僅是處理器架構歷史上具有里程碑式的事件，對傳統以來的計算模式和計算機體系架構也是一種顛覆 2005年，一系列具有深遠影響的計算機體系結構被曝光，有可能為未來十年的計算機體系結構奠定根本性的基礎，至少為處理器乃至整個計算機體系結構做出了象徵性指引。隨著計算密度的提高，處理器和計算機性能的衡量標准和方式在發生變化，從應用的角度講，講究移動和偏向性能兩者已經找到了最令人滿意的結合點，並且有可能引爆手持設備的急劇膨脹。盡管現在手持設備也相對普及，在計算能力、可擴展性以及能耗上，完全起步到一台手持設備應該具備的作用；另一方面，講究性能的伺服器端和桌面端，開始考慮減少電力消耗趕上節約型社會的大潮流。 Cell本身適應這種變化，同樣也是它自己創造了這種變化。因而從它開始就強調了不一樣的設計風格，除了能夠很好地進行多倍擴展外，處理器內部的SPU(SynergisticProcessorUnit協同處理單元)具有很好的擴展性，因而可以同時面對通用和專用的處理，實現處理資源的靈活重構。也就意味著，通過適當的軟體控制，Cell能應付多種類型的處理任務，同時還能夠精簡設計的復雜。

㈣什麼是計算機體系結構中的並行性

並行處理（Parallel Processing）是計算機系統中能同時執行兩個或更多個處理機的一種計算方法。處理機可同時工作於同一程序的不同方面。並行處理的主要目的是節省大型和復雜問題的解決時間。為使用並行處理，首先需要對程序進行並行化處理，也就是說將工作各部分分配到不同處理機中。而主要問題是並行是一個相互依靠性問題，而不能自動實現。此外，並行也不能保證加速。但是一個在 n 個處理機上執行的程序速度可能會是在單一處理機上執行的速度的 n 倍。
計算機體系結構(ComputerArchitecture)是程序員所看到的計算機的屬性，即概念性結構與功能特性。按照計算機系統的多級層次結構，不同級程序員所看到的計算機具有不同的屬性。一般來說，低級機器的屬性對於高層機器程序員基本是透明的，通常所說的計算機體系結構主要指機器語言級機器的系統結構。經典的關於"計算機體系結構(computerarchitecture)"的定義是1964年C.M.Amdahl在介紹IBM360系統時提出的，其具體描述為"計算機體系結構是程序員所看到的計算機的屬性，即概念性結構與功能特性" 。
利用計算機語言進行並行性描述的時候主要有三種方案:
1.語言擴展方案:也就是利用各種語言的庫函數來進行並行性功能的擴展。
2.編譯制導法:也稱為智能編譯，它是隱式並行策略的體現，主要是由並行編譯系統進行程序表示、控制流的分析、相關分析、優化分析和並行化劃分，由相關分析得到方法庫管理方案，由優化分析得到知識庫管理方案，由並行化劃分得到程序重構，從而形成並行程序。
3.新的語言結構法:這是顯式並行策略的體現。也就是建立一種全新的並行語言的體系，而這種並行語言通過編譯就能直接形成並行程序。

㈤並行處理的並行演算法的基本策略

在並行處理技術中所使用的演算法主要遵循三種策略：
1．分而治之法：也就是把多個任務分解到多個處理器或多個計算機中，然後再按照一定的拓撲結構來進行求解。
2．重新排序法：分別採用靜態或動態的指令詞度方式。
3．顯式/隱式並行性結合：顯式指的是並行語言通過編譯形成並行程序，隱式指的是串列語言通過編譯形成並行程序，顯式/隱式並行性結合的關鍵就在於並行編譯，而並行編譯涉及到語句、程序段、進程以及各級程序的並行性。
二、並行性描述定義
利用計算機語言進行並行性描述的時候主要有三種方案：
1．語言擴展方案：也就是利用各種語言的庫函數來進行並行性功能的擴展。
2．編譯制導法：也稱為智能編譯，它是隱式並行策略的體現，主要是由並行編譯系統進行程序表示、控制流的分析、相關分析、優化分析和並行化劃分，由相關分析得到方法庫管理方案，由優化分析得到知識庫管理方案，由並行化劃分得到程序重構，從而形成並行程序。
3．新的語言結構法：這是顯式並行策略的體現。也就是建立一種全新的並行語言的體系，而這種並行語言通過編譯就能直接形成並行程序。
三、並行軟體
並行軟體可分成並行系統軟體和並行應用軟體兩大類，並行系統軟體主要指並行編譯系統和並行操作系統，並行應用軟體主要指各種軟體工具和應用軟體包。在軟體中所牽涉到的程序的並行性主要是指程序的相關性和網路互連兩方面。
1．程序的相關性：程序的相關性主要分為數據相關、控制相關和資源相關三類。
數據相關說明的是語句之間的有序關系，主要有流相關、反相關、輸出相關、I/O相關和求知相關等，這種關系在程序運行前就可以通過分析程序確定下來。數據相關是一種偏序關系，程序中並不是每一對語句的成員都是相關聯的。可以通過分析程序的數據相關，把程序中一些不存在相關性的指令並行地執行，以提高程序運行的速度。
控制相關指的是語句執行次序在運行前不能確定的情況。它一般是由轉移指令引起的，只有在程序執行到一定的語句時才能判斷出語句的相關性。控制相關常使正在開發的並行性中止，為了開發更多的並行性，必須用編譯技術克服控制相關。
而資源相關則與系統進行的工作無關，而與並行事件利用整數部件、浮點部件、寄存器和存儲區等共享資源時發生的沖突有關。軟體的並行性主要是由程序的控制相關和數據相關性決定的。在並行性開發時往往把程序劃分成許多的程序段——顆粒。顆粒的規模也稱為粒度，它是衡量軟體進程所含計算量的尺度，一般用細、中、粗來描述。劃分的粒度越細，各子系統間的通信時延也越低，並行性就越高，但系統開銷也越大。因此，我們在進行程序組合優化的時候應該選擇適當的粒度，並且把通訊時延盡可能放在程序段中進行，還可以通過軟硬體適配和編譯優化的手段來提高程序的並行度。
2．網路互連：將計算機子系統互連在一起或構造多處理機或多計算機時可使用靜態或動態拓撲結構的網路。靜態網路由點一點直接相連而成，這種連接方式在程序執行過程中不會改變，常用來實現集中式系統的子系統之間或分布式系統的多個計算結點之間的固定連接。動態網路是用開關通道實現的，它可動態地改變結構，使之與用戶程序中的通信要求匹配。動態網路包括匯流排、交叉開關和多級網路，常用於共享存儲型多處理機中。在網路上的消息傳遞主要通過尋徑來實現。常見的尋徑方式有存儲轉發尋徑和蟲蝕尋徑等。在存儲轉發網路中以長度固定的包作為信息流的基本單位，每個結點有一個包緩沖區，包從源結點經過一系列中間結點到達目的結點。存儲轉發網路的時延與源和目的之間的距離(段數)成正比。而在新型的計算機系統中採用蟲蝕尋徑，把包進一步分成一些固定長度的片，與結點相連的硬體尋徑器中有片緩沖區。消息從源傳送到目的結點要經過一系列尋徑器。同一個包中所有的片以流水方式順序傳送，不同的包可交替地傳送，但不同包的片不能交叉，以免被送到錯誤的目的地。蟲蝕尋徑的時延幾乎與源和目的之間的距離無關。在尋徑中產生的死鎖問題可以由虛擬通道來解決。虛擬通道是兩個結點間的邏輯鏈，它由源結點的片緩沖區、結點間的物理通道以及接收結點的片緩沖區組成。物理通道由所有的虛擬通道分時地共享。虛擬通道雖然可以避免死鎖，但可能會使每個請求可用的有效通道頻寬降低。因此，在確定虛擬通道數目時，需要對網路吞吐量和通信時延折衷考慮。
四、硬體技術在硬體技術方面主要從處理機、存儲器和流水線三個方面來實現並行。
1．處理機：主要的處理機系列包括CISC、RISC、超標量、VL1W、超流水線、向量以及符號處理機。
傳統的處理機屬於復雜指令系統計算(CISC)結構。指令系統大，指令格式可變，通用寄存器個數較少，基本上使用合一的指令與數據高速緩存，時鍾頻率較低，CPI較高，大多數利用ROM 實現微碼控制CPU，而當今的精簡指令系統計算(RISC)處理機指令格式簡單規范，面向寄存器堆，採用重疊寄存器窗口技術，具有多級Cache，多種流水線結構，強調編譯優化技術，時鍾頻率快，CPI低，大多數用硬連線控制CPU。
CISC或RISC標量處理機都可以採用超標量或向量結構來改善性能。標量處理機在每個周期內只發射一條指令並要求周期只完成從流水線來的一條指令。而在超標量處理機中，使用了多指令流水線，每個周期要發射多條指令並產生多個結果。由於希望程序中有許多的指令級並行性，因此超標量處理機更要依靠優化編譯器去開發並行性。
VL1W 結構是將水平微碼和超標量處理這兩種普遍採用的概念結合起來產生的。典型的超長指令字VL1W 機器指令字長度有數百位。在VLlW 處理機中，多個功能部件是並發工作的，所有的功能部件共享使用公用大型寄存器堆，由功能部件同時執行的各種操作是用VL1W 指令來同步的，每條指令可指定多個操作。VL1W 指令解碼比超標量指令容易，但在開發不同數量的並行性時總是需要不同的指令系統。VL1W 主要是開發標量操作之間的並行性，它的成功與否很大程度取決於代碼壓縮的效率，其結構和任何傳統的通用處理機完全不兼容。即使同一結構的不同實現也不大可能做到彼此二進制兼容。VL1W 的主要優點在於它的硬體結構和指令系統簡單，在科學應用領域可以發揮良好作用，但在一般應用場合可能並不很好用。
向量處理機對數組執行向量指令，每條指令都包含一串重復的操作。它是專門設計用來完成向量運算的協處理機，通常用於多流水線超級計算機中。向量處理機可以利用循環級展開所得的並行性，它可以附屬於任何標量處理機。專用的向量流水線可以在循環控制中消除某些軟體開銷，它的效果與優化編譯器將順序代碼向量化的性能很有關系。從理論上說，向量機可以具有和超標量處理機同樣的性能，因此可以說向量機的並行性與超標量機相同。
符號處理機是為AI應用而研製的，已用於定理證明、模式識別、專家系統、知識工程、文本檢索、科學以及機器智能等許多應用領域。在這些應用中，數據和知識表達式、原語操作、演算法特性、存儲器、I/0和通信以及專用的結構特性與數值計算是不一樣的，符號處理機也稱為邏輯程序設計語言處理機、表處理語言處理機或符號變換器。符號處理並不和數值數據打交道，它處理的是邏輯程序、符號表、對象、劇本、黑板、產生式系統、語義網路、框架以及人工神經網路等問題。這些操作需要專門的指令系統，通常不使用浮點操作。
2．存儲器：存儲設備按容量和存取時間從低到高可分為寄存器、高速緩存、主存儲器、磁碟設備和磁帶機五個層次。較低層存儲設備與較高層的相比，存取速度較快、容量較小，每位元組成本較高、帶寬較寬、傳輸單位較小。
存放在存儲器層次結構中的信息滿足三個重要特性：包含性、一致性和局部性。所謂包含性，指的是一個信息字的復製品可以在比它高的所有層中找到，而如果在高層中丟失了一個信息，則在比它低的所有層中此信息也將丟失。CPU 和高速緩存之間的信息傳送是按字進行的，高速緩存和主存儲器間用塊作為數據傳送的基本單位，主存和磁碟之間又是以頁面為基本單位來傳送信息的，而在磁碟和磁帶機之間的數據傳送則是按文件級處理的。所謂一致性要求的是同一個信息項與後繼存儲器層次上的副本是一致的。也就是說，如果在高速緩存中的一個字被修改過，那麼在所有更高層上該字的副本也必須立即或最後加以修改。為了盡量減少存儲器層次結構的有效存取時間，通常把頻繁使用的信息放在較低層次。維護存儲器層次結構一致性一般有兩種策略，一種是寫直達策略，也就是如果，則立即在所有高層存儲器中進行同樣的修改；另一種是寫回策略，也就是在較低層中對信息進行修改後並不立即在高層存儲器中進行相應的修改，而是等到該信息將被替換或將從低層中消失時才在所有高層存儲器中進行同樣的修改。甚至可以將寫直達和寫回策略的優點結合起來，形成寫一次協議來維護存儲器的一致性。
存儲器的層次結構是在一種程序行為——訪問的局部性基礎上開發出來的。主要有時間局部性、空間局部性和順序局部性。時間局部性指的是最近的訪問項很可能在不久的將來再次被訪問。它往往會引起對最近使用區域的集中訪問。空間局部性表示一種趨勢，指的是一個進程訪問的各項其地址彼此很近。順序局部性指的是在典型程序中，除非是轉移指令，一般指令都是順序執行的。
在多處理機系統中一般使用共享存儲器。對共享存儲器的組織一般採用低位交叉、高位交叉、高低位交叉三種方法。低位交叉又稱並發存取，它是把相鄰的地址放在相鄰的存儲器模塊中，在訪問時不容易產生沖突，並行性較好，但可靠性容錯能力和擴展性均較差。高位交叉又稱允許同時存取，它是把相鄰地址分配到同一個存儲器模塊中，可靠性、容錯能力和擴展性均較強，但訪問時易產生沖突，帶寬較窄，並行性較差。高低位交叉存取又稱C—s存取，它是結合了高位交叉和低位交叉兩種方法的優點，既解決了沖突問題，又能有效地提高容錯能力和並行性，最適合於向量處理機結構。
3．流水線：流水線技術主要有指令流水線技術和運算流水線技術兩種。
指令流水線技術主要目的是要提高計算機的運行效率和吞吐率。它主要通過設置預取指令緩沖區、設置多功能部件、進行內部數據定向、採取適當的指令調度策略來實現。指令調度的策略主要有靜態和動態兩種，靜態詞度是基於軟體的，主要由編譯器完成，動態詞度是基於硬體的，主要是通過硬體技術進行。
運算流水線主要有單功能流水線和多功能流水線兩種。其中多功能流水線又可分為靜態流水線和動態流水線。靜態流水線技術只用來實現確定的功能，而動態流水線可以在不同時間重新組合，實現不同的功能，它除流線連接外，還允許前饋和反饋連接，因此也稱為非線性流水線。這些前饋和反饋連接使得進入流水線的相繼事件的詞度變得很不簡單。由於這些連接，流水線不一定從最後一段輸出。根據不同的數據流動模式，人們可以用同一條流水線求得不同功能的值。
並行計算機發展簡述
40 年代開始的現代計算機發展歷程可以分為兩個明顯的發展時代：串列計算時代、並行計算時代。每一個計算時代都從體系結構發展開始，接著是系統軟體（特別是編譯器與操作系統）、應用軟體，最後隨著問題求解環境的發展而達到頂峰。創建和使用並行計算機的主要原因是因為並行計算機是解決單處理器速度瓶頸的最好方法之一。
並行計算機是由一組處理單元組成的，這組處理單元通過相互之間的通信與協作，以更快的速度共同完成一項大規模的計算任務。因此，並行計算機的兩個最主要的組成部分是計算節點和節點間的通信與協作機制。並行計算機體系結構的發展也主要體現在計算節點性能的提高以及節點間通信技術的改進兩方面。
60 年代初期，由於晶體管以及磁芯存儲器的出現，處理單元變得越來越小，存儲器也更加小巧和廉價。這些技術發展的結果導致了並行計算機的出現，這一時期的並行計算機多是規模不大的共享存儲多處理器系統，即所謂大型主機（Mainframe）。IBM360 是這一時期的典型代表。
到了60 年代末期，同一個處理器開始設置多個功能相同的功能單元，流水線技術也出現了。與單純提高時鍾頻率相比，這些並行特性在處理器內部的應用大大提高了並行計算機系統的性能。伊利諾依大學和Burroughs 公司此時開始實施IlliacIV 計劃，研製一台64 個CPU 的SIMD 主機系統，它涉及到硬體技術、體系結構、I/O 設備、操作系統、程序設計語言直至應用程序在內的眾多研究課題。不過，當一台規模大大縮小了的16CPU 系統終於在1975 年面世時，整個計算機界已經發生了巨大變化。
首先是存儲系統概念的革新，提出虛擬存儲和緩存的思想。IBM360/85 系統與360/91是屬於同一系列的兩個機型，360/91 的主頻高於360/85，所選用的內存速度也較快，並且採用了動態調度的指令流水線；但是，360/85 的整體性能卻高於360/91，唯一的原因就是前者採用了緩存技術，而後者則沒有。
其次是半導體存儲器開始代替磁芯存儲器。最初，半導體存儲器只是在某些機器被用作緩存，而CDC7600 則率先全面採用這種體積更小、速度更快、可以直接定址的半導體存儲器，磁芯存儲器從此退出了歷史舞台。與此同時，集成電路也出現了，並迅速應用到了計算機中。元器件技術的這兩大革命性突破，使得IlliacIV 的設計者們在底層硬體以及並行體系結構方面提出的種種改進都大為遜色。
1976 年CRAY-1 問世以後，向量計算機從此牢牢地控制著整個高性能計算機市場15 年。CRAY-1 對所使用的邏輯電路進行了精心的設計，採用了我們如今稱為RISC 的精簡指令集，還引入了向量寄存器，以完成向量運算。這一系列全新技術手段的使用，使CRAY-1 的主頻達到了80MHz。
微處理器隨著機器的字長從4 位、8 位、16 位一直增加到32 位，其性能也隨之顯著提高。正是因為看到了微處理器的這種潛力，卡內基- 梅隆大學開始在當時流行的DECPDP11 小型計算機的基礎上研製成功一台由16 個PDP11/40 處理機通過交叉開關與16 個共享存儲器模塊相連接而成的共享存儲多處理器系統C.mmp。
從80 年代開始，微處理器技術一直在高速前進。稍後又出現了非常適合於SMP 方式的匯流排協議，而伯克利加州大學則對匯流排協議進行了擴展，提出了Cache 一致性問題的處理方案。從此，C.mmp 開創出的共享存儲多處理器之路越走越寬；現在，這種體系結構已經基本上統治了伺服器和桌面工作站市場。
同一時期，基於消息傳遞機制的並行計算機也開始不斷涌現。80 年代中期，加州理工成功地將64 個i8086/i8087 處理器通過超立方體互連結構連結起來。此後，便先後出現了Intel iPSC 系列、INMOS Transputer 系列，Intel Paragon 以及IBM SP 的前身Vulcan 等基於消息傳遞機制的並行計算機。
80 年代末到90 年代初，共享存儲器方式的大規模並行計算機又獲得了新的發展。IBM將大量早期RISC 微處理器通過蝶形互連網路連結起來。人們開始考慮如何才能在實現共享存儲器緩存一致的同時，使系統具有一定的可擴展性（Scalability）。90 年代初期，斯坦福大學提出了DASH 計劃，它通過維護一個保存有每一緩存塊位置信息的目錄結構來實現分布式共享存儲器的緩存一致性。後來，IEEE 在此基礎上提出了緩存一致性協議的標准。
90 年代以來，主要的幾種體系結構開始走向融合。屬於數據並行類型的CM-5 除大量採用商品化的微處理器以外，也允許用戶層的程序傳遞一些簡單的消息；CRAY T3D是一台NUMA 結構的共享存儲型並行計算機，但是它也提供了全局同步機制、消息隊列機制，並採取了一些減少消息傳遞延遲的技術。
隨著商品化微處理器、網路設備的發展，以及MPI/PVM 等並行編程標準的發布，機群架構的並行計算機出現。IBM SP2 系列機群系統就是其中的典型代表。在這些系統中，各個節點採用的都是標準的商品化計算機，它們之間通過高速網路連接起來。
今天，越來越多的並行計算機系統採用商品化的微處理器加上商品化的互連網路構造，這種分布存儲的並行計算機系統稱為機群。國內幾乎所有的高性能計算機廠商都生產這種具有極高性能價格比的高性能計算機，並行計算機就進入了一個新的時代，並行計算的應用達到了前所未有的廣度和深度。
並行計算機隨著微處理晶元的發展，已經進入了一個新時代。目前並行計算機的性能已經突破20PFLOPS，正在向百億億次發展。我國並行計算機的研製已經走在世界前列。2003年由聯想公司生產的深騰6800 在2003 年11 月世界TOP500 排名中位列第14 名，2004 年曙光公司生產的曙光4000A 在2004 年6 月的世界TOP500 排名中位列第10 名，這是我國公開發布的高性能計算機在世界TOP500 中首次進入前十名，這標志著我國在並行計算機系統的研製和生產中已經趕上了國際先進水平，為提高我國的科學研究水平奠定了物質基礎。2013年國際超級計算機大會最新發布的世界超級計算機500強排名中，國防科技大學研製的天河二號超級計算機系統，以峰值計算速度每秒5.49億億次、持續計算速度每秒3.39億億次雙精度浮點運算的優異性能位居榜首。
從TOP500 的前10 名來看，美國仍然是超級計算機的最大擁有者。按照世界TOP500 的統計數據來分析，美國在計算能力上佔有近全世界的一半，在TOP500 中的所有計算機中擁有的數量超過50%。

㈥「編譯」與「編譯器」是什麼意思

編譯是動詞
編譯器是名詞
編譯(compilation , compile)
1、利用編譯程序從源語言編寫的源程序產生目標程序的過程。
2、用編譯程序產生目標程序的動作。

編譯就是把高級語言變成計算機可以識別的2進制語言，計算機只認識1和0，編譯程序把人們熟悉的語言換成2進制的。
編譯程序把一個源程序翻譯成目標程序的工作過程分為五個階段：詞法分析；語法分析；中間代碼生成；代碼優化；目標代碼生成。主要是進行詞法分析和語法分析，又稱為源程序分析，分析過程中發現有語法錯誤，給出提示信息。
（1）詞法分析
詞法分析的任務是對由字元組成的單詞進行處理，從左至右逐個字元地對源程序進行掃描，產生一個個的單詞符號，把作為字元串的源程序改造成為單詞符號串的中間程序。執行詞法分析的程序稱為詞法分析程序或掃描器。
源程序中的單詞符號經掃描器分析，一般產生二元式：單詞種別；單詞自身的值。單詞種別通常用整數編碼，如果一個種別只含一個單詞符號，那麼對這個單詞符號，種別編碼就完全代表它自身的值了。若一個種別含有許多個單詞符號，那麼，對於它的每個單詞符號，除了給出種別編碼以外，還應給出自身的值。
詞法分析器一般來說有兩種方法構造：手工構造和自動生成。手工構造可使用狀態圖進行工作，自動生成使用確定的有限自動機來實現。
（2）語法分析
編譯程序的語法分析器以單詞符號作為輸入，分析單詞符號串是否形成符合語法規則的語法單位，如表達式、賦值、循環等，最後看是否構成一個符合要求的程序，按該語言使用的語法規則分析檢查每條語句是否有正確的邏輯結構，程序是最終的一個語法單位。編譯程序的語法規則可用上下文無關文法來刻畫。
語法分析的方法分為兩種：自上而下分析法和自下而上分析法。自上而下就是從文法的開始符號出發，向下推導，推出句子。而自下而上分析法採用的是移進歸約法，基本思想是：用一個寄存符號的先進後出棧，把輸入符號一個一個地移進棧里，當棧頂形成某個產生式的一個候選式時，即把棧頂的這一部分歸約成該產生式的左鄰符號。
（3）中間代碼生成
中間代碼是源程序的一種內部表示，或稱中間語言。中間代碼的作用是可使編譯程序的結構在邏輯上更為簡單明確，特別是可使目標代碼的優化比較容易實現。中間代碼即為中間語言程序，中間語言的復雜性介於源程序語言和機器語言之間。中間語言有多種形式，常見的有逆波蘭記號、四元式、三元式和樹。
（4）代碼優化
代碼優化是指對程序進行多種等價變換，使得從變換後的程序出發，能生成更有效的目標代碼。所謂等價，是指不改變程序的運行結果。所謂有效，主要指目標代碼運行時間較短，以及佔用的存儲空間較小。這種變換稱為優化。
有兩類優化：一類是對語法分析後的中間代碼進行優化，它不依賴於具體的計算機；另一類是在生成目標代碼時進行的，它在很大程度上依賴於具體的計算機。對於前一類優化，根據它所涉及的程序范圍可分為局部優化、循環優化和全局優化三個不同的級別。
（5）目標代碼生成
目標代碼生成是編譯的最後一個階段。目標代碼生成器把語法分析後或優化後的中間代碼變換成目標代碼。目標代碼有三種形式：
① 可以立即執行的機器語言代碼，所有地址都重定位；
② 待裝配的機器語言模塊，當需要執行時，由連接裝入程序把它們和某些運行程序連接起來，轉換成能執行的機器語言代碼；
③ 匯編語言代碼，須經過匯編程序匯編後，成為可執行的機器語言代碼。
目標代碼生成階段應考慮直接影響到目標代碼速度的三個問題：一是如何生成較短的目標代碼；二是如何充分利用計算機中的寄存器，減少目標代碼訪問存儲單元的次數；三是如何充分利用計算機指令系統的特點，以提高目標代碼的質量。
編譯器，是將便於人編寫，閱讀，維護的高級計算機語言翻譯為計算機能解讀、運行的低階機器語言的程序。編譯器將原始程序（Source program）作為輸入，翻譯產生使用目標語言（Target language）的等價程序。源代碼一般為高階語言 (High-level language), 如 Pascal、C++、Java 等，而目標語言則是匯編語言或目標機器的目標代碼（Object code），有時也稱作機器代碼（Machine code）。
一個現代編譯器的主要工作流程如下：
源代碼 (source code) → 預處理器 (preprocessor) → 編譯器 (compiler) → 匯編程序 (assembler) → 目標代碼 (object code) → 連接器 (Linker) → 可執行程序 (executables)

工作原理
[編輯本段]

編譯是從源代碼（通常為高階語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低階語言或機器語言）的翻譯過程。然而，也存在從低階語言到高階語言的編譯器，這類編譯器中用來從由高階語言生成的低階語言代碼重新生成高階語言代碼的又被叫做反編譯器。也有從一種高階語言生成另一種高階語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。
典型的編譯器輸出是由包含入口點的名字和地址, 以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的可執行程序。

編譯器種類
[編輯本段]

編譯器可以生成用來在與編譯器本身所在的計算機和操作系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做「本地」編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高階語言作為輸入，輸出也是高階語言的編譯器。例如: 自動並行化編譯器經常採用一種高階語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）

作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端（frontend）

前端主要負責解析（parse）輸入的源代碼，由語法分析器和語意分析器協同工作。語法分析器負責把源代碼中的『單詞』（Token）找出來,語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c;」前端語法分析器看到的是「a, =, b , +, c;」，語意分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步優化，處理。

編譯器後端（backend）

編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，優化，變型都可以分成兩大類：函數內（intraproceral）還是函數之間（interproceral）進行。很明顯，函數間的分析，優化更准確，但需要更長的時間來完成。

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源代碼的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源代碼的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等等。

上述的程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標准化循環結構（loop normalization），循環體展開（loop unrolling），循環體合並，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目標是減少代碼的長度，提高內存（memory），緩存（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，優化，變形的工作。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合並幾句代碼成一句等等。

編譯語言與直譯語言對比
[編輯本段]

許多人將高階程序語言分為兩類: 編譯型語言和直譯型語言。然而，實際上，這些語言中的大多數既可用編譯型實現也可用直譯型實現，分類實際上反映的是那種語言常見的實現方式。（但是，某些直譯型語言，很難用編譯型實現。比如那些允許在線代碼更改的直譯型語言。）

歷史
[編輯本段]

上世紀50年代，IBM的John Backus帶領一個研究小組對FORTRAN語言及其編譯器進行開發。但由於當時人們對編譯理論了解不多，開發工作變得既復雜又艱苦。與此同時，Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單，甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識別它們所需要的演算法來對語言分類。正如現在所稱的Chomsky架構（Chomsky Hierarchy），它包括了文法的四個層次：0型文法、1型文法、2型文法和3型文法，且其中的每一個都是其前者的特殊情況。2型文法（或上下文無關文法）被證明是程序設計語言中最有用的，而且今天它已代表著程序設計語言結構的標准方式。分析問題（parsing problem，用於上下文無關文法識別的有效演算法）的研究是在60年代和70年代，它相當完善的解決了這個問題。現在它已是編譯原理中的一個標准部分。

有限狀態自動機（Finite Automaton）和正則表達式（Regular Expression）同上下文無關文法緊密相關，它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始，並且引出了表示程序設計語言的單詞的符號方式。

人們接著又深化了生成有效目標代碼的方法，這就是最初的編譯器，它們被一直使用至今。人們通常將其稱為優化技術（Optimization Technique），但因其從未真正地得到過被優化了的目標代碼而僅僅改進了它的有效性，因此實際上應稱作代碼改進技術（Code Improvement Technique）。

當分析問題變得好懂起來時，人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱為編譯器的編譯器（Compiler-compiler），但更確切地應稱為分析程序生成器（Parser Generator），這是因為它們僅僅能夠自動處理編譯的一部分。這些程序中最著名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年為Unix系統編寫的。類似的，有限狀態自動機的研究也發展了一種稱為掃描程序生成器（Scanner Generator）的工具，Lex（與Yacc同時，由Mike Lesk為Unix系統開發）是這其中的佼佼者。

在70年代後期和80年代早期，大量的項目都貫注於編譯器其它部分的生成自動化，這其中就包括了代碼生成。這些嘗試並未取得多少成功，這大概是因為操作太復雜而人們又對其不甚了解。

編譯器設計最近的發展包括：首先，編譯器包括了更加復雜演算法的應用程序它用於推斷或簡化程序中的信息；這又與更為復雜的程序設計語言的發展結合在一起。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一演算法。其次，編譯器已越來越成為基於窗口的交互開發環境（Interactive Development Environment，IDE）的一部分，它包括了編輯器、連接程序、調試程序以及項目管理程序。這樣的IDE標准並沒有多少，但是對標準的窗口環境進行開發已成為方向。另一方面，盡管近年來在編譯原理領域進行了大量的研究，但是基本的編譯器設計原理在近20年中都沒有多大的改變，它現在正迅速地成為計算機科學課程中的中心環節。

在九十年代，作為GNU項目或其它開放源代碼項目標一部分，許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的計算機程序語言。它們中的一些項目被認為是高質量的，而且對現代編譯理論感興趣的人可以很容易的得到它們的免費源代碼。

大約在1999年，SGI公布了他們的一個工業化的並行化優化編譯器Pro64的源代碼，後被全世界多個編譯器研究小組用來做研究平台，並命名為Open64。Open64的設計結構好，分析優化全面，是編譯器高級研究的理想平台。

㈦計算機的體系結構,組成和實現各自處理哪些方面的問題

計算機體系結構（ComputerArchitecture）是程序員所看到的計算機的屬性，即概念性結構與功能特性。按照計算機系統的多級層次結構，不同級程序員所看到的計算機具有不同的屬性。一般來說，低級機器的屬性對於高層機器程序員基本是透明的，通常所說的計算機體系結構主要指機器語言級機器的系統結構。經典的關於「計算機體系結構（computerarchitecture）」的定義是1964年C.M.Amdahl在介紹IBM360系統時提出的，其具體描述為「計算機體系結構是程序員所看到的計算機的屬性，即概念性結構與功能特性」。

計算機體系結構
2基本概念編輯
計算機體系結構就是指適當地組織在一起的一系列系統元素的集合，這些系統元素互相配合、相互協作，通過對信息的處理而完成預先定義的目標。通常包含的系統元素有：計算機軟體、計算機硬體、人員、資料庫、文檔和過程。其中，軟體是程序、資料庫和相關文檔的集合，用於實現所需要的邏輯方法、過程或控制；硬體是提供計算能力的電子設備和提供外部世界功能的電子機械設備(例如感測器、馬達、水泵等)；人員是硬體和軟體的用戶和操作者；資料庫是通過軟體訪問的大型的、有組織的信息集合；文檔是描述系統使用方法的手冊、表格、圖形及其他描述性信息；過程是一系列步驟，它們定義了每個系統元素的特定使用方法或系統駐留的過程性語境。

計算機體系結構
38種屬性編輯
1·機內數據表示：硬體能直接辨識和操作的數據類型和格式

計算機體系結構
2·定址方式：最小可定址單位、定址方式的種類、地址運算
3·寄存器組織：操作寄存器、變址寄存器、控制寄存器及專用寄存器的定義、數量和使用規則
4·指令系統：機器指令的操作類型、格式、指令間排序和控制機構
5·存儲系統：最小編址單位、編址方式、主存容量、最大可編址空間
6·中斷機構：中斷類型、中斷級別，以及中斷響應方式等
7·輸入輸出結構：輸入輸出的連接方式、處理機/存儲器與輸入輸出設備間的數據交換方式、數據交換過程的控制
8·信息保護：信息保護方式、硬體信息保護機制。
4發展歷程編輯
計算機系統已經經歷了四個不同的發展階段。

計算機體系結構
第一階段
60年代中期以前，是計算機系統發展的早期時代。在這個時期通用硬體已經相當普遍，軟體卻是為每個具體應用而專門編寫的，大多數人認為軟體開發是無需預先計劃的事情。這時的軟體實際上就是規模較小的程序，程序的編寫者和使用者往往是同一個(或同一組)人。由於規模小，程序編寫起來相當容易，也沒有什麼系統化的方法，對軟體開發工作更沒有進行任何管理。這種個體化的軟體環境，使得軟體設計往往只是在人們頭腦中隱含進行的一個模糊過程，除了程序清單之外，根本沒有其他文檔資料保存下來。
第二階段
從60年代中期到70年代中期，是計算機系統發展的第二代。在這10年中計算機技術有了很大進步。多道程序、多用戶系統引入了人機交互的新概念，開創了計算機應用的新境界，使硬體和軟體的配合上了一個新的層次。實時系統能夠從多個信息源收集、分析和轉換數據，從而使得進程式控制制能以毫秒而不是分鍾來進行。在線存儲技術的進步導致了第一代資料庫管理系統的出現。計算機系統發展的第二代的一個重要特徵是出現了「軟體作坊」，廣泛使用產品軟體。但是，「軟體作坊」基本上仍然沿用早期形成的個體化軟體開發方法。隨著計算機應用的日益普及，軟體數量急劇膨脹。在程序運行時發現的錯誤必須設法改正；用戶有了新的需求時必須相應地修改程序；硬體或操作系統更新時，通常需要修改程序以適應新的環境。上述種種軟體維護工作，以令人吃驚的比例耗費資源。更嚴重的是，許多程序的個體化特性使得它們最終成為不可維護的。「軟體危機」就這樣開始出現了。1968年北大西洋公約組織的計算機科學家在聯邦德國召開國際會議，討論軟體危機課題，在這次會議上正式提出並使用了「軟體工程」這個名詞，一門新興的工程學科就此誕生了。
第三階段
計算機系統發展的第三代從20世紀70年代中期開始，並且跨越了整整10年。在這10年中計算機技術又有了很大進步。分布式系統極大地增加亍計算機系統的復雜性，區域網、廣域網、寬頻數字通信以及對「即時」數據訪問需求的增加，都對軟體開發者提出了更高的要求。但是，在這個時期軟體仍然主要在工業界和學術界應用，個人應用還很少。這個時期的主要特點是出現了微處理器，而且微處理器獲得了廣泛應用。以微處理器為核心的「智能」產品隨處可見，當然，最重要的智能產品是個人計算機。在不到10年的時間里，個人計算機已經成為大眾化的商品。
在計算機系統發展的第四代已經不再看重單台計算機和程序，人們感受到的是硬體和軟體的綜合效果。由復雜操作系統控制的強大的桌面機及區域網和廣域網，與先進的應用軟體相配合，已經成為當前的主流。計算機體系結構已迅速地從集中的主機環境轉變成分布的客戶機/伺服器(或瀏覽器/伺服器)環境。世界范圍的信息網為人們進行廣泛交流和資源的充分共享提供了條件。軟體產業在世界經濟中已經佔有舉足輕重的地位。隨著時代的前進，新的技術也不斷地涌現出來。面向對象技術已經在許多領域迅速地取代了傳統的軟體開發方法。
總結
軟體開發的「第四代技術」改變了軟體界開發計算機程序的方式。專家系統和人工智慧軟體終於從實驗室中走出來進入了實際應用，解決了大量實際問題。應用模糊邏輯的人工神經網路軟體，展現了模式識別與擬人信息處理的美好前景。虛擬現實技術與多媒體系統，使得與用戶的通信可以採用和以前完全不同的方法。遺傳演算法使我們有可能開發出駐留在大型並行生物計算機上的軟體。
5基本原理編輯
計算機體系結構解決的是計算機系統在總體上、功能上需要解決的問題，它和計算機組成、計算機實現是不同的概念。一種體系結構可能有多種組成，一種組成也可能有多種物理實現。

計算機系統結構的邏輯實現，包括機器內部數據流和控制流的組成以及邏輯設計等。其目標是合理地把各種部件、設備組成計算機，以實現特定的系統結構，同時滿足所希望達到的性能價格比。一般而言，計算機組成研究的范圍包括：確定數據通路的寬度、確定各種操作對功能部件的共享程度、確定專用的功能部件、確定功能部件的並行度、設計緩沖和排隊策略、設計控制機構和確定採用何種可靠技術等。計算機組成的物理實現。包括處理機、主存等部件的物理結構，器件的集成度和速度，器件、模塊、插件、底板的劃分與連接，專用器件的設計，信號傳輸技術，電源、冷卻及裝配等技術以及相關的製造工藝和技術。
6分類編輯
Flynn分類法
1966年，Michael.J.Flynn提出根據指令流、數據流的多倍性（multiplicity）特徵對計算機系統進行分類，定義如下。
·指令流：機器執行的指令序列

計算機體系結構
·數據流：由指令流調用的數據序列，包括輸入數據和中間結果
·多倍性：在系統性能瓶頸部件上同時處於同一執行階段的指令或數據的最大可能個數。
Flynn根據不同的指令流-數據流組織方式把計算機系統分為4類。
1·單指令流單數據流（，SISD）
SISD其實就是傳統的順序執行的單處理器計算機，其指令部件每次只對一條指令進行解碼，並只對一個操作部件分配數據。
2·單指令流多數據流（，SIMD）
SIMD以並行處理機為代表，結構如圖，並行處理機包括多個重復的處理單元PU1～PUn，由單一指令部件控制，按照同一指令流的要求為它們分配各自所需的不同的數據。
3·多指令流單數據流（，MISD）
MISD的結構，它具有n個處理單元，按n條不同指令的要求對同一數據流及其中間結果進行不同的處理。一個處理單元的輸出又作為另一個處理單元的輸入。
4·多指令流多數據流（，MIMD）
MIMD的結構，它是指能實現作業、任務、指令等各級全面並行的多機系統，多處理機就屬於MIMD。（2）
馮式分類法
1972年馮澤雲提出用最大並行度來對計算機體系結構進行分類。所謂最大並行度Pm是指計算機系統在單位時間內能夠處理的最大的二進制位數。設每一個時鍾周期△ti內能處理的二進制位數為Pi，則T個時鍾周期內平均並行度為Pa=(∑Pi)/T(其中i為1，2，…，T)。平均並行度取決於系統的運行程度，與應用程序無關，所以，系統在周期T內的平均利用率為μ=Pa/Pm=(∑Pi)/(T*Pm)。用最大並行度對計算機體系結構進行的分類。用平面直角坐標系中的一點表示一個計算機系統，橫坐標表示字寬(N位)，即在一個字中同時處理的二進制位數；縱坐標表示位片寬度(M位)，即在一個位片中能同時處理的字數，則最大並行度Pm=N*M。
由此得出四種不同的計算機結構：
①字串列、位串列(簡稱WSBS)。其中N=1，M=1。
②字並行、位串列(簡稱WPBS)。其中N=1，M>1。
③字串列、位並行(簡稱WSBP)。其中N>1，M=1。
④字並行、位並行(簡稱WPBP)。其中N>1，M>1。
7技術革新編輯
計算機體系結構以圖靈機理論為基礎，屬於馮·諾依曼體系結構。本質上，圖靈機理論和馮·諾依曼體系結構是一維串列的，而多核處理器則屬於分布式離散的並行結構，需要解決二者的不匹配問題。
首先，串列的圖靈機模型和物理上分布實現的多核處理器的匹配問題。圖靈機模型意味著串列的編程模型。串列程序很難利用物理上分布實現的多個處理器核獲得性能加速.與此同時,並行編程模型並沒有獲得很好的推廣，僅僅局限在科學計算等有限的領域.研究者應該尋求合適的機制來實現串列的圖靈機模型和物理上分布實現的多核處理器的匹配問題或縮小二者之間的差距，解決「並行程序編程困難，串列程序加速小」的問題。

計算機體系結構
在支持多線程並行應用方面，未來多核處理器應該從如下兩個方向加以考慮。第一是引入新的能夠更好的能夠表示並行性的編程模型。由於新的編程模型支持編程者明確表示程序的並行性，因此可以極大的提升性能。比如Cell處理器提供不同的編程模型用於支持不同的應用。其難點在於如何有效推廣該編程模型以及如何解決兼容性的問題。第二類方向是提供更好的硬體支持以減少並行編程的復雜性。並行程序往往需要利用鎖機制實現對臨界資源的同步、互斥操作，編程者必須慎重確定加鎖的位置，因為保守的加鎖策略限制了程序的性能，而精確的加鎖策略大大增加了編程的復雜度。一些研究在此方面做了有效的探索。比如，SpeculativeLockElision機制允許在沒有沖突的情況下忽略程序執行的鎖操作，因而在降低編程復雜度的同時兼顧了並行程序執行的性能。這樣的機制使得編程者集中精力考慮程序的正確性問題，而無須過多地考慮程序的執行性能。更激進的，(TCC)機制以多個訪存操作（Transaction）為單位考慮數據一致性問題，進一步簡化了並行編程的復雜度。
主流的商業多核處理器主要針對並行應用，如何利用多核加速串列程序仍然是一個值得關注的問題。其關鍵技術在於利用軟體或硬體自動地從串新程序中派生出能夠在多核處理器上並行執行的代碼或線程。多核加速串列程序主要有三種方法，包括並行編譯器、推測多線程以及基於線程的預取機制等。在傳統並行編譯中，編譯器需要花費很大的精力來保證擬劃分線程之間不存在數據依賴關系。編譯時存在大量模糊依賴，尤其是在允許使用指針（如C程序）的情況下，編譯器不得不採用保守策略來保證程序執行的正確性。這大大限制了串列程序可以挖掘的並發程度，也決定了並行編譯器只能在狹窄范圍使用。為解決這些問題，人們提出推測多線程以及基於線程的預取機制等。然而，從這種概念提出到現在為止，這個方向的研究大部分局限於學術界，僅有個別商業化處理器應用了這種技術，並且僅僅局限於特殊的應用領域。我們認為動態優化技術和推測多線程（包括基於線程的預取機制）的結合是未來的可能發展趨勢。
馮·諾依曼體系結構的一維地址空間和多核處理器的多維訪存層次的匹配問題。本質上，馮·諾依曼體系結構採用了一維地址空間。由於不均勻的數據訪問延遲和同一數據在多個處理器核上的不同拷貝導致了數據一致性問題。該領域的研究分為兩大類：一類研究主要是引入新的訪存層次。新的訪存層次可能採用一維分布式實現方式。典型的例子是增加分布式統一編址的寄存器網路。全局統一編址的特性避免了數據一致性地考慮。同時，相比於傳統的大容量cache訪問，寄存器又能提供更快的訪問速度。TRIPS和RAW都有實現了類似得寄存器網路。另外，新的訪存層次也可以是私有的形式。比如每個處理器和都有自己私有的訪存空間。其好處是更好的劃分了數據存儲空間，已洗局部私有數據沒有必要考慮數據一致性問題。比如Cell處理器為每個SPE核設置了私有的數據緩沖區。另一類研究主要涉及研製新的cache一致性協議。其重要趨勢是放鬆正確性和性能的關系。比如推測Cache協議在數據一致性未得到確認之前就推測執行相關指令，從而減少了長遲訪存操作對流水線的影響。此外，TokenCoherence和TCC也採用了類似的思想。程序的多樣性和單一的體系結構的匹配問題。未來的應用展現出多樣性的特點。一方面，處理器的評估不僅僅局限於性能，也包括可靠性，安全性等其他指標。另一方面，即便考慮僅僅追求性能的提高，不同的應用程序也蘊含了不同層次的並行性。應用的多樣性驅使未來的處理器具有可配置、靈活的體系結構。TRIPS在這方面作了富有成效的探索，比如其處理器核和片上存儲系統均有可配置的能力，從而使得TRIPS能夠同時挖掘指令級並行性、數據級並行性及指令級並行性。
多核和Cell等新型處理結構的出現不僅是處理器架構歷史上具有里程碑式的事件，對傳統以來的計算模式和計算機體系架構也是一種顛覆
2005年，一系列具有深遠影響的計算機體系結構被曝光，有可能為未來十年的計算機體系結構奠定根本性的基礎，至少為處理器乃至整個計算機體系結構做出了象徵性指引。隨著計算密度的提高，處理器和計算機性能的衡量標准和方式在發生變化，從應用的角度講，講究移動和偏向性能兩者已經找到了最令人滿意的結合點，並且有可能引爆手持設備的急劇膨脹。盡管現在手持設備也相對普及，在計算能力、可擴展性以及能耗上，完全起到了一台手持設備應該具備的作用；另一方面，講究性能的伺服器端和桌面端，開始考慮減少電力消耗趕上節約型社會的大潮流。
Cell本身適應這種變化，同樣也是它自己創造了這種變化。因而從它開始就強調了不一樣的設計風格，除了能夠很好地進行多倍擴展外，處理器內部的SPU(SynergisticProcessorUnit協同處理單元)具有很好的擴展性，因而可以同時面對通用和專用的處理，實現處理資源的靈活重構。也就意味著，通過適當的軟體控制，Cell能應付多種類型的處理任務，同時還能夠精簡設計的復雜。

㈧ android系統編譯能用分布式編譯嗎

項目越來越大，每次需要重新編譯整個項目都是一件很浪費時間的事情。Research了一下，找到以下可以幫助提高速度的方法，總結一下。
1. 使用tmpfs來代替部分IO讀寫
2.ccache，可以將ccache的緩存文件設置在tmpfs上，但是這樣的話，每次開機後，ccache的緩存文件會丟失
3.distcc,多機器編譯
4.將屏幕輸出列印到內存文件或者/dev/null中，避免終端設備（慢速設備）拖慢速度。

tmpfs
有人說在Windows下用了RAMDisk把一個項目編譯時間從4.5小時減少到了5分鍾，也許這個數字是有點誇張了，不過粗想想，把文件放到內存上做編譯應該是比在磁碟上快多了吧，尤其如果編譯器需要生成很多臨時文件的話。
這個做法的實現成本最低，在Linux中，直接mount一個tmpfs就可以了。而且對所編譯的工程沒有任何要求，也不用改動編譯環境。
mount -t tmpfs tmpfs ~/build -o size=1G
用2.6.32.2的Linux Kernel來測試一下編譯速度：
用物理磁碟：40分16秒
用tmpfs：39分56秒
呃……沒什麼變化。看來編譯慢很大程度上瓶頸並不在IO上面。但對於一個實際項目來說，編譯過程中可能還會有打包等IO密集的操作，所以只要可能，用tmpfs是有益無害的。當然對於大項目來說，你需要有足夠的內存才能負擔得起這個tmpfs的開銷。
make -j
既然IO不是瓶頸，那CPU就應該是一個影響編譯速度的重要因素了。
用make -j帶一個參數，可以把項目在進行並行編譯，比如在一台雙核的機器上，完全可以用make -j4，讓make最多允許4個編譯命令同時執行，這樣可以更有效的利用CPU資源。
還是用Kernel來測試：
用make： 40分16秒
用make -j4：23分16秒
用make -j8：22分59秒
由此看來，在多核CPU上，適當的進行並行編譯還是可以明顯提高編譯速度的。但並行的任務不宜太多，一般是以CPU的核心數目的兩倍為宜。
不過這個方案不是完全沒有cost的，如果項目的Makefile不規范，沒有正確的設置好依賴關系，並行編譯的結果就是編譯不能正常進行。如果依賴關系設置過於保守，則可能本身編譯的可並行度就下降了，也不能取得最佳的效果。
ccache
ccache工作原理：
ccache也是一個編譯器驅動器。第一趟編譯時ccache緩存了GCC的「-E」輸出、編譯選項以及.o文件到$HOME/.ccache。第二次編譯時盡量利用緩存，必要時更新緩存。所以即使"make clean; make"也能從中獲得好處。ccache是經過仔細編寫的，確保了與直接使用GCC獲得完全相同的輸出。

ccache用於把編譯的中間結果進行緩存，以便在再次編譯的時候可以節省時間。這對於玩Kernel來說實在是再好不過了，因為經常需要修改一些Kernel的代碼，然後再重新編譯，而這兩次編譯大部分東西可能都沒有發生變化。對於平時開發項目來說，也是一樣。為什麼不是直接用make所支持的增量編譯呢？還是因為現實中，因為Makefile的不規范，很可能這種「聰明」的方案根本不能正常工作，只有每次make clean再make才行。
安裝完ccache後，可以在/usr/local/bin下建立gcc，g++，c++，cc的symbolic link，鏈到/usr/bin/ccache上。總之確認系統在調用gcc等命令時會調用到ccache就可以了（通常情況下/usr/local /bin會在PATH中排在/usr/bin前面）。
安裝的另外一種方法：
vi ~/.bash_profile
把/usr/lib/ccache/bin路徑加到PATH下
PATH=/usr/lib/ccache/bin:$PATH:$HOME/bin
這樣每次啟動g++的時候都會啟動/usr/lib/ccache/bin/g++，而不會啟動/usr/bin/g++
效果跟使用命令行ccache g++效果一樣
這樣每次用戶登錄時，使用g++編譯器時會自動啟動ccache
繼續測試：
用ccache的第一次編譯(make -j4)：23分38秒
用ccache的第二次編譯(make -j4)：8分48秒
用ccache的第三次編譯(修改若干配置，make -j4)：23分48秒

看來修改配置（我改了CPU類型...）對ccache的影響是很大的，因為基本頭文件發生變化後，就導致所有緩存數據都無效了，必須重頭來做。但如果只是修改一些.c文件的代碼，ccache的效果還是相當明顯的。而且使用ccache對項目沒有特別的依賴，布署成本很低，這在日常工作中很實用。
可以用ccache -s來查看cache的使用和命中情況：
cache directory /home/lifanxi/.ccachecache hit 7165cache miss 14283called for link 71not a C/C++ file 120no input file 3045files in cache 28566cache size 81.7 Mbytesmax cache size 976.6 Mbytes
可以看到，顯然只有第二編次譯時cache命中了，cache miss是第一次和第三次編譯帶來的。兩次cache佔用了81.7M的磁碟，還是完全可以接受的。
distcc
一台機器的能力有限，可以聯合多台電腦一起來編譯。這在公司的日常開發中也是可行的，因為可能每個開發人員都有自己的開發編譯環境，它們的編譯器版本一般是一致的，公司的網路也通常具有較好的性能。這時就是distcc大顯身手的時候了。
使用distcc，並不像想像中那樣要求每台電腦都具有完全一致的環境，它只要求源代碼可以用make -j並行編譯，並且參與分布式編譯的電腦系統中具有相同的編譯器。因為它的原理只是把預處理好的源文件分發到多台計算機上，預處理、編譯後的目標文件的鏈接和其它除編譯以外的工作仍然是在發起編譯的主控電腦上完成，所以只要求發起編譯的那台機器具備一套完整的編譯環境就可以了。
distcc安裝後，可以啟動一下它的服務：
/usr/bin/distccd --daemon --allow 10.64.0.0/16
默認的3632埠允許來自同一個網路的distcc連接。
然後設置一下DISTCC_HOSTS環境變數，設置可以參與編譯的機器列表。通常localhost也參與編譯，但如果可以參與編譯的機器很多，則可以把localhost從這個列表中去掉，這樣本機就完全只是進行預處理、分發和鏈接了，編譯都在別的機器上完成。因為機器很多時，localhost的處理負擔很重，所以它就不再「兼職」編譯了。
export DISTCC_HOSTS="localhost 10.64.25.1 10.64.25.2 10.64.25.3"
然後與ccache類似把g++，gcc等常用的命令鏈接到/usr/bin/distcc上就可以了。
在make的時候，也必須用-j參數，一般是參數可以用所有參用編譯的計算機CPU內核總數的兩倍做為並行的任務數。
同樣測試一下：
一台雙核計算機，make -j4：23分16秒
兩台雙核計算機，make -j4：16分40秒
兩台雙核計算機，make -j8：15分49秒
跟最開始用一台雙核時的23分鍾相比，還是快了不少的。如果有更多的計算機加入，也可以得到更好的效果。
在編譯過程中可以用distccmon-text來查看編譯任務的分配情況。distcc也可以與ccache同時使用，通過設置一個環境變數就可以做到，非常方便。
總結一下：
tmpfs：解決IO瓶頸，充分利用本機內存資源
make -j：充分利用本機計算資源
distcc：利用多台計算機資源
ccache：減少重復編譯相同代碼的時間
這些工具的好處都在於布署的成本相對較低，綜合利用這些工具，就可以輕輕鬆鬆的節省相當可觀的時間。上面介紹的都是這些工具最基本的用法，更多的用法可以參考它們各自的man page。
5.還有提速方法是把屏幕輸出重定向到內存文件或/dev/null,因對終端設備(慢速設備)的阻塞寫操作也會拖慢速度。推薦內存文件，這樣發生錯誤時，能夠查看。

㈨編譯器的發展史

編譯器
編譯器，是將便於人編寫，閱讀，維護的高級計算機語言翻譯為計算機能識別，運行的低級機器語言的程序。編譯器將源程序（Source program）作為輸入，翻譯產生使用目標語言（Target language）的等價程序。源程序一般為高級語言（High-level language），如Pascal，C++等，而目標語言則是匯編語言或目標機器的目標代碼（Object code），有時也稱作機器代碼（Machine code）。

一個現代編譯器的主要工作流程如下：

源程序（source code）→預處理器（preprocessor）→編譯器（compiler）→匯編程序（assembler）→目標程序（object code）→連接器（鏈接器，Linker）→可執行程序（executables）
目錄 [隱藏]
1 工作原理
2 編譯器種類
3 預處理器（preprocessor）
4 編譯器前端（frontend）
5 編譯器後端（backend）
6 編譯語言與解釋語言對比
7 歷史
8 參見

工作原理
翻譯是從源代碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低級語言或機器言）。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。

典型的編譯器輸出是由包含入口點的名字和地址以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的可執行程序。

編譯器種類
編譯器可以生成用來在與編譯器本身所在的計算機和操作系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做「本地」編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高級語言作為輸入，輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）
作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端（frontend）
前端主要負責解析（parse）輸入的源程序，由詞法分析器和語法分析器協同工作。詞法分析器負責把源程序中的『單詞』（Token）找出來,語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c;」前端詞法分析器看到的是「a, =, b , +, c;」，語法分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步優化，處理。

編譯器後端（backend）
編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，優化，變型都可以分成兩大類：函數內（intraproceral）還是函數之間（interproceral）進行。很明顯，函數間的分析，優化更准確，但需要更長的時間來完成。

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源程序的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源程序的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等等。

上述的程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標准化循環結構（loop normalization），循環體展開（loop unrolling），循環體合並，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目的是減少代碼的長度，提高內存（memory），緩存（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，優化，變形的工作。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合並幾句代碼成一句等等。

編譯語言與解釋語言對比
許多人將高級程序語言分為兩類: 編譯型語言和解釋型語言。然而，實際上，這些語言中的大多數既可用編譯型實現也可用解釋型實現，分類實際上反映的是那種語言常見的實現方式。（但是，某些解釋型語言，很難用編譯型實現。比如那些允許在線代碼更改的解釋型語言。）

歷史
上世紀50年代，IBM的John Backus帶領一個研究小組對FORTRAN語言及其編譯器進行開發。但由於當時人們對編譯理論了解不多，開發工作變得既復雜又艱苦。與此同時，Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單，甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識別它們所需要的演算法來對語言分類。正如現在所稱的Chomsky架構（Chomsky Hierarchy），它包括了文法的四個層次：0型文法、1型文法、2型文法和3型文法，且其中的每一個都是其前者的特殊情況。2型文法（或上下文無關文法）被證明是程序設計語言中最有用的，而且今天它已代表著程序設計語言結構的標准方式。分析問題（parsing problem，用於上下文無關文法識別的有效演算法）的研究是在60年代和70年代，它相當完善的解決了這個問題。現在它已是編譯原理中的一個標准部分。

有限狀態自動機（Finite Automaton）和正則表達式（Regular Expression）同上下文無關文法緊密相關，它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始，並且引出了表示程序設計語言的單詞的符號方式。

人們接著又深化了生成有效目標代碼的方法，這就是最初的編譯器，它們被一直使用至今。人們通常將其稱為優化技術（Optimization Technique），但因其從未真正地得到過被優化了的目標代碼而僅僅改進了它的有效性，因此實際上應稱作代碼改進技術（Code Improvement Technique）。

當分析問題變得好懂起來時，人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱為編譯器的編譯器（Compiler-compiler），但更確切地應稱為分析程序生成器（Parser Generator），這是因為它們僅僅能夠自動處理編譯的一部分。這些程序中最著名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年為Unix系統編寫的。類似的，有限狀態自動機的研究也發展了一種稱為掃描程序生成器（Scanner Generator）的工具，Lex（與Yacc同時，由Mike Lesk為Unix系統開發）是這其中的佼佼者。

在70年代後期和80年代早期，大量的項目都貫注於編譯器其它部分的生成自動化，這其中就包括了代碼生成。這些嘗試並未取得多少成功，這大概是因為操作太復雜而人們又對其不甚了解。

編譯器設計最近的發展包括：首先，編譯器包括了更加復雜演算法的應用程序它用於推斷或簡化程序中的信息；這又與更為復雜的程序設計語言的發展結合在一起。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一演算法。其次，編譯器已越來越成為基於窗口的交互開發環境（Interactive Development Environment，IDE）的一部分，它包括了編輯器、連接程序、調試程序以及項目管理程序。這樣的IDE標准並沒有多少，但是對標準的窗口環境進行開發已成為方向。另一方面，盡管近年來在編譯原理領域進行了大量的研究，但是基本的編譯器設計原理在近20年中都沒有多大的改變，它現在正迅速地成為計算機科學課程中的中心環節。

在九十年代，作為GNU項目或其它開放源代碼項目的一部分，許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的計算機程序語言。它們中的一些項目被認為是高質量的，而且對現代編譯理論感性趣的人可以很容易的得到它們的免費源代碼。

大約在1999年，SGI公布了他們的一個工業化的並行化優化編譯器Pro64的源代碼，後被全世界多個編譯器研究小組用來做研究平台，並命名為Open64。Open64的設計結構好，分析優化全面，是編譯器高級研究的理想平台。

編譯器是一種特殊的程序，它可以把以特定編程語言寫成的程序變為機器可以運行的機器碼。我們把一個程序寫好，這時我們利用的環境是文本編輯器。這時我程序把程序稱為源程序。在此以後程序員可以運行相應的編譯器，通過指定需要編譯的文件的名稱就可以把相應的源文件（通過一個復雜的過程）轉化為機器碼了。

編譯器工作方法
首先編譯器進行語法分析，也就是要把那些字元串分離出來。然後進行語義分析，就是把各個由語法分析分析出的語法單元的意義搞清楚。最後生成的是目標文件，我們也稱為obj文件。再經過鏈接器的鏈接就可以生成最後的可執行代碼了。有些時候我們需要把多個文件產生的目標文件進行鏈接，產生最後的代碼。我們把一過程稱為交叉鏈接。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1093

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1371

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1058

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1234

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1100

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1454

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：658

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：554

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1230

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1256

並行編譯架構

著名計算機科學家高光榮享年76歲逝世1

著名計算機科學家高光榮享年76歲逝世2

與並行編譯架構相關的資訊