並行演算法設計與性能優化

發布時間: 2023-02-01 23:33:30

1. 陳國良的主要成果

先後主持完成了10多項國家863計劃、國家攀登計劃、國家自然基金、教育部博士基金等科研項目。取得了多項被國內外廣泛引用的、達到國際先進水平的科研成果，發表論文100多篇，出版著作7部，譯著5部，參與主編計算機類辭典、詞彙5部，主審、主編計算機類各種教材8部。
獲國家級二等獎以及部、省、院級一等、二等、三等獎共14項。 [1] 陳國良等，《並行計算機體系結構》，高等教育出版社，2002。
[2] 陳國良，《並行計算：結構，演算法，編程》，高等教育出版社，1999。
[3] 陳國良等，《遺傳演算法及其應用》，人民郵電出版社，1996。
[4] 陳國良，《並行演算法的設計與分析》，高等教育出版社，1994。
[5] 陳國良，陳崚，《VLSI計算理論與並行演算法》，中國科大出版社，1991。
[6] 陳國良，《並行演算法：排序和選擇》，中國科大出版社，1990。
[7] 王鼎興，陳國良，《互連網路結構分析》，科學出版社，1990。陳國良，基於曙光1000的中尺度數值氣象預報系統及其在江淮流域適用性研究，小型微型計算機系統，Vol.21, No.11, p1121-1125, 2000.11。
陳國良，淮河中上游群庫聯合優化調度演算法及其並行實現，小型微型計算機系統，Vol.21, No.6, p603-607, 2000.6。
陳國良，林潔，顧乃傑，分布式存儲的並行串匹配演算法的設計與分析，軟體學報， 11(6), pp. 771-778, 2000.6
Chen gouliang，Heuristics for Line Capacity Design of PWE Assembly Systems，J. of China Univ. of Sci. & Tech.，Vol.30, No.2, p142-150, 2000.4。
陳國良，桂孝生，楊勃，Walch變換的截斷方法及其並行實現，中國科大學報，Vol.28，No.3，pp.270-276，1998
陳國良，許錦波，LogP模型上的一類蝶式計算的通信策略，計算機學報，Vol.20，No.8，pp.695-701，1997
陳國良，熊焰，顧乃傑，面向應用的神經信息處理系統（NIPS），計算機研究與發展，Vol. 33，No.12，pp.887-892，1996
陳國良，李曉峰，黃偉民，並行FFT演算法在3種並行計算模型上的設計和分析，軟體學報，Vol.7，增刊， pp.57-63，1996
陳國良，並行演算法的可擴放性分析，小型微型計算機系統，Vol.16，No.2，pp.10-16，1995
陳國良，梁維發，沈鴻，並行圖論演算法研究進展，計算機研究與發展，Vol.32，No.9，pp.1-16，1995
陳國良，更實際的並行計算模型，小型微型計算機系統，Vol.16，No.2，pp.1-9，1995
Chen Guoliang，Zhu Song-chun，Chin Shao-ou，On the Master-Slave Neural Network Models，proc.IJCNN』92，Beijing，1992
陳國良，熊焰，方祥，通用並行神經網路模擬系統GP2N2S2，小型微型計算機系統，Vol.13，No.12，pp.16-21，1992
陳國良，神經計算及其在組合優化中的應用，計算機研究與發展，Vol.29，No.5，pp.1-21，1992
陳國良，朱松純，秦小鷗，主從通用神經網路模型，電子學報，Vol.20，No.10，pp.24-32，1992
陳國良，張永民，改進的多層柵格嵌入演算法，計算機學報，Vol.14，No.5，pp.332-339，1991
陳國良，韓雅華，Benes網路的半自動選路法，計算機學報，Vol.13，No.3，pp.161-173，1990
G.L.Chen，An O(n) Switch setting Algorithm for the Benes Network，PPCC-3，Beijing，China，Vol. 8，pp.16-19，1989
陳國良，VLSI並行計算，計算機工程與應用，No.2， pp.1-35，1989
G.L.Chen，H.Shen，A Bitonic Selection Algorithm on Multiprocessors，J.of comput. Sci.&Tech.，Vol.4，No.4，pp.315-322，1989
陳國良，非數值計算的並行演算法（下），計算機研究與發展，Vol.25，No.12，pp.1-10，1988
Chen Guoliang，A Partitioning Selection Algorithm on Multiprocessors，J.of comput. Sci.&Tech.，Vol.3，No.4，pp.241-250，1988
陳國良，劉峻，多處理器上的分組選擇網路，計算機研究與發展，Vol.25，No.8，pp.1-9，1988
陳國良，王忠良，並行歸並選擇演算法，計算機學報，Vol. 11，No.1，pp.14-21，1988
陳國良，沈鴻，SIMD機器上的雙調選擇演算法，計算機研究與發展， Vol. 25，No.1，pp.1-14，1988
陳國良，沈鴻，雙調選擇網路及其在多處理器上實現的雙調選擇演算法，計算機研究與發展，Vol. 24，No.9，pp.1-10，1987
陳國良，熊焰，兩個不同機種局部區域網路Cnet和Omninet網際互連，小型微型計算機系統，No.2，pp.1-8，1987
K.L.Chen and H.Shang，Bitonic Selection Algorithm on SIMD machine，The Second International conf. On computers and applications，Beijing，China，pp.176-182，1987
陳國良，數據流計算機的互連結構，計算機研究與發展，Vol. 23，No.9，pp.2-10，1986
陳國良，計算機網路互連研究，計算機研究與發展，Vol. 23，No.11，pp.2-10，1986
陳國良，選擇網路的比較研究，中國科大學報，pp.109-120，1985
陳國良，多處理機系統的互連網路，計算機研究與發展，Vol. 28，No.8，pp.30-50，1985
陳國良，計算機網路拓撲（上），計算機研究與發展，Vol. 22，No.10， pp.37-45，1985
陳國良，計算機網路拓撲（下），計算機研究與發展，Vol. 22，No.11， pp.7-15，1985
B.W.Wah and K.L.Chen，A partitioning approach to the design of selection networks， IEEE Trans. On-computers，Vol.c-23，No.3 pp.261-268，1984
陳國良，平衡遞歸選擇演算法，計算機研究與發展，Vol. 21，No.4，pp.7-17，1984
陳國良，並行排序演算法，計算機工程與應用，pp.62-72，1984
B.W.Wah and K.L.Chen，Generalized parallel selection networks，The first International conf. On computers and applications，Beijing，China，pp.406-413，1984
數據流計算機，計算機研究與發展，Vol. 21，No.9，pp.34-46，1984
陳國良，平衡分組選擇網路，計算機研究與發展，Vol. 21，No.11，pp.9-21，1984
個人榮譽
中國科學技術大學軟體學院院長、國家高性能計算中心(合肥)主任陳國良教授，數十年來，他嘔心瀝血，勇攀科技高峰，培養了一大批優秀人才，為我國的科技發展和經濟建設作出了重要貢獻。
中國科學院院士、中國科技大學教授陳國良受聘南京郵電大學兼職教授暨院士學術報告會在學校科學會堂報告廳舉行。副校長張順頤教授主持儀式和報告會。副校長鄭寶玉教授向陳國良教授頒發了兼職教授聘書。受聘後，陳院士將不定期到我校對計算機學科和信息與計算學科的學科建設、教學和科研等工作進行指導。
陳國良院士是我國計算機並行演算法的理論、設計和應用方面傑出的科學家。最早提出並行演算法研究的一系列新觀點和新方法，形成了「並行演算法—並行計算機—並行編程」一體化研究體系。在非數值並行演算法和高性能計算及其應用的研究方面做出了系統的創造性成就和重大貢獻。是全國100名名師之一。陳國良院士受聘我校兼職教授後，將會極大地促進計算機學科和信息與計算學科的發展。
研究成果
上世紀90年代中期，陳國良教授開展了高性能計算及其應用的研究，率先成立了我國第一個國家高性能計算中心，推進了我國該領域的發展；開發了自主版權的國產曙光並行機「用戶開發環境」商用軟體，為推廣國產並行機應用做出了重要貢獻。以陳國良為首席科學家的國家高性能計算中心(合肥)成立10年來，先後承擔了國家863、國家自然科學基金等項目20多項，總經費達4000餘萬元。在國內高校率先開設了並行演算法、並行體系結構等一系列高性能計算方面的專業課，形成了並行演算法類教學體系，推動了我國高性能並行計算學科的研究與發展。
陳國良圖冊
陳國良教授將高性能計算的理論與方法應用於淮河流域的防洪、防污和水環境的治理。他與淮委合作研製開發的國家863重大項目安徽省防災減災智能信息與決策支持系統，在汛期對淮河中上游九大水庫進行防洪調度，他負責研製的淮河流域防洪防污智能調度系統，以削峰、錯峰調度為目標，將氣象數值預報、水情信息的獲取與分析、流域匯流計算與洪水預警預報、水庫的聯合調度等有機結合，在流域防洪調度決策工作中發揮了重要的作用。2003年夏，淮河流域遭受特大洪澇災害。陳國良帶領中國科大師生一行十多人跑到一線現場，為防洪調度決策提供高性能計算支持。為確保計算參數的准確性，他還與淮河水利委員會的技術人員一同到方邱湖、西大壩等防洪重點區域實地考察，提出了洪水演進計算方案，為這一區域的防洪調度工作提供了科學依據。
在陳國良眼裡，教學永遠是第一位的。30多年來，他一直站在教學一線。他培養的30多名博士生中，不少人已經成為學科帶頭人和技術骨幹。1998年，陳國良榮獲安徽省教育系統模範和安徽省模範教師稱號，2003年，獲得首屆國家教學名師獎

人物語錄
亦工亦農：農民出生，在農村長大，對農村情況非常的熟悉。陳老說，雖然自己經歷了很多，做過很多職業，但自己骨子裡卻始終不該農民的本色。至於「工」，則是因為進過軍工廠，當過工人。陳老說自己對工人也有深厚的感情，他覺得工人的感情十分的樸素真摯，人也很容易相處。
陳國良圖冊
亦文亦武：念了大學，還出過國深造，也算得上是一名知識分子。而且自1973年調入中國科學技術大學工作至今就一直在與「文」打交道。「武」方面是因為自己在大學畢業後參軍在軍隊里呆了四五年時間，還到過福建前線。
亦強亦弱：進入大學，先是在電力系學強電，則是「強」，後來轉學的無線電與計算機都是弱電壓，所以稱之為「弱」。
亦硬亦軟：先是研究計算機硬體方面的知識，後來又研究了計算機軟體方面的知識。
亦理亦實：既做理論，又實踐。兩手抓，兩手都硬。
亦中亦西：雖然自己在國內外都沒有取得博士學位，但是研究還是有一定的成就。經常到別的國家的高校進行學術交流，在中西兩方面都有一定成果和影響。
陳老還與在場的所有聽眾分享了他的一些小小故事：學英語發音、教專業英語、在部隊的種種經歷……，他幽默詼諧的語言引來了一陣陣掌聲。他還認真回答了互動環節中同學們的積極提問。
二十四個普通的漢字，堆砌的是陳老不平凡的一生。他的謙和、樸素、認真的品質盡現了大師風范，也是這次講座座無虛席的理由。
個人影響
重獎成果中科院院士陳國良獲得個人一等獎
中科院院士、中國科技大學教授、中國高性能計算機中心（合肥）主任陳國良教授申報的高性能並行計算及其應用項目獲得個人首屆「浪潮高性能計算創新獎」一等獎。陳國良教授及其開創的高性能並行計算及其應用，為推動中國高性能科學計算的發展做出了突出的貢獻。在國際上，使我國的高性能並行演算法達到國際先進水平。
高性能並行計算及其應用形成了並行計算理論--並行演算法設計--並行計算實現--並行計算應用一套完整的學科研究體系，提出了並行機結構--並行演算法--並行編程一體化的研究方法。高性能並行計算及其應用的重要內容涉及一些經典問題的並行演算法研究，如網路與排序演算法、圖論演算法、互聯網路及其路由演算法、VLS布局演算法等，達到了國際領先水平。在國際上，高性能並行計算及其應用，將結構、演算法和編程有機聯系起來，解決了水科學、氣象預報、石油開采鑽探等實際科學工程計算問題，也在國際同行研究中獨具特色。
陳國良圖冊
高性能並行計算及其應用目前在國內許多工程項目中得到廣泛的應用，並取得了非常好的經濟和社會效益。以高性能並行計算及其應用為基礎的國家863重大項目安徽省防災減災智能信息與決策支持系統，這一系統將中尺度數值氣象預報模式的計算結果作為水情預測和群庫優化調度的決策參考依據，在汛期對淮河中上游九大水庫進行防洪調度，取得了顯著的社會和經濟效益。
而淮河流域防洪防污智能調度系統，以削峰、錯峰調度為目標，將氣象數值預報、水情信息的獲取與分析、流域匯流計算與洪水預警預報、水庫的聯合調度等有機結合，其研究結果作為預報的參考依據，在流域防洪調度決策工作中發揮了重要的作用。在戰勝2004年夏季淮河遭受的超過50年一遇的特大洪水中，為政府部門防洪提供了及時有效的數據支持，為防洪決策提供了有力的支持。
眾所周知，淮河流域是一個水患與污患並重的特殊流域，非汛期的防污、控污任務非常艱巨。以陳國良院士的並行計算為基礎，利用計算網格、信息網格等網格計算技術，構建的流域數字化基礎信息平台，開發水資源污染控制系統，為淮河污染治理提供了有力的決策支持。2004年夏，淮河遭受到10年一遇的特大污染，追蹤污水團沿河順流下洩的情況，為提前開閘泄污，消化與稀釋污水團提供了高性能計算支持。

2. 高性能計算的優化

高性能計算(HighPerformanceComputing)是計算機科學的一個分支，主要是指從體系結構、並行演算法和軟體開發等方面研究開發高性能計算機的技術。
隨著計算機技術的飛速發展，高性能計算機的計算速度不斷提高，其標准也處在不斷變化之中。
高性能計算簡單來說就是在16台甚至更多的伺服器上完成某些類型的技術工作負載。到底這個數量是需要8台，12台還是16台伺服器這並不重要。在定義下假設每一台伺服器都在運行自己獨立的操作系統，與其關聯的輸入/輸出基礎構造都是建立在COTS系統之上。
簡而言之，討論的就是Linux高性能計算集群。
一個擁有20000台伺服器的信息中心要進行分子動力學模擬無疑是毫無問題的，就好比一個小型工程公司在它的機房裡運行計算流體動力學(CFD)模擬。解決工作負載的唯一限制來自於技術層面。接下來我們要討論的問題是什麼能直接加以應用。
量度(Metrics)
性能(Performance)，每瓦特性能(Performance/Watt)，每平方英尺性能(Performance/Squarefoot)和性能價格比(Performance/dollar)等，對於提及的20000台伺服器的動力分子簇來說，原因是顯而易見的。運行這樣的系統經常被伺服器的能量消耗(瓦特)和體積(平方英尺)所局限。這兩個要素都被計入總體擁有成本(TCO)之列。在總體擁有成本(TCO)方面取得更大的經濟效益是大家非常關注的。
議題的范圍限定在性能方面來幫助大家理解性能能耗，性能密度和總體擁有成本(TCO)在實踐中的重要性。
性能的定義
在這里把性能定義為一種計算率。例如每天完成的工作負載，每秒鍾浮點運算的速度(FLOPs)等等。接下來要思考的是既定工作量的完成時間。這兩者是直接關聯的，速度=1/(時間/工作量)。因此性能是根據運行的工作量來進行測算的，通過計算其完成時間來轉化成所需要的速度。
定量與定性
從定性的層面上來說這個問題很容易回答，就是更快的處理器，更多容量的內存，表現更佳的網路和磁碟輸入/輸出子系統。但當要在決定是否購買Linu集群時這樣的回答就不夠准確了。
對Linux高性能計算集群的性能進行量化分析。
為此介紹部分量化模型和方法技巧，它們能非常精確的對大家的業務決策進行指導，同時又非常簡單實用。舉例來說，這些業務決策涉及的方麵包括：
購買---系統元件選購指南來獲取最佳性能或者最經濟的性能配置---鑒別系統及應用軟體中的瓶頸
計劃---突出性能的關聯性和局限性來制定中期商業計劃
Linux高性能計算集群模型包括四類主要的硬體組成部分。
(1)執行技術工作負載的計算節點或者伺服器；
(2)一個用於集群管理，工作控制等方面的主節點；
(3)互相連接的電纜和高度普及的千兆乙太網(GBE)；
(4)一些全局存儲系統，像由主節點輸出的NFS文件一樣簡單易用。
高性能計算機的衡量標准主要以計算速度(尤其是浮點運算速度)作為標准。高性能計算機是信息領域的前沿高技術，在保障國家安全、推動國防科技進步、促進尖端武器發展方面具有直接推動作用，是衡量一個國家綜合實力的重要標志之一。
隨著信息化社會的飛速發展，人類對信息處理能力的要求越來越高，不僅石油勘探、氣象預報、航天國防、科學研究等需求高性能計算機，而金融、政府信息化、教育、企業、網路游戲等更廣泛的領域對高性能計算的需求迅猛增長。
一個簡單量化的運用模型
這樣一個量化的運用模型非常直觀。在一個集群上對既定的工作完成的時間大約等同於在獨立的子系統上花費的時間：
e
1、時間(Time)=節點時間(Tnode)+電纜時間(Tfabric)+存儲時間(Tstorage)
Time = Tnode + Tfabric + Tstorag
這里所說的時間(Time)指的是執行工作量的完成時間，節點時間(Tnode)是指在計算節點上花費的完成時間，電纜時間(Tfabric)是指在互聯網上各個節點進行互聯的完成時間，而存儲時間(Tstorage)則是指訪問區域網或全球存儲系統的完成時間。
計算節點的完成時間大約等同於在獨立的子系統上花費的時間：
2、節點時間(Tnode)=內核時間(Tcore) +內存時間(Tmemory)
這里所說的內核時間(Tcore)指的是在微處理器計算節點上的完成時間。而內存時間(Tmemory)就是指訪問主存儲器的完成時間。這個模型對於單個的CPU計算節點來說是非常實用的，而且能很容易的擴展到通用雙插槽(SMP對稱多處理)計算節點。為了使第二套模型更加實用，子系統的完成時間也必須和計算節點的物理配置參數相關聯，例如處理器的速度，內存的速度等等。
計算節點
圖示中的計算節點原型來認識相關的配置參數。圖示上端的是2個處理器插槽，通過前端匯流排(FSB-front side bus)與內存控制中心(MCH)相連。這個內存控制中心(MCH)有四個存儲信道。同時還有一個Infiniband HCA通過信道點對點串列(PCIe)連接在一起。
像千兆乙太網和串列介面(SATA)硬碟之類的低速的輸入輸出系統都是通過晶元組中的南橋通道(South Bridge)相連接的。在圖示中，大家可以看到每個主要部件旁邊都用紅色標注了一個性能相關參數。這些參數詳細的說明了影響性能(並非全部)的硬體的特性。它們通常也和硬體的成本直接相關。舉例來說，處理器時鍾頻率(fcore)在多數工作負荷狀態下對性能影響巨大。根據供求交叉半導體產額曲線原理，處理器速度越快，相應成本也會更高。
高速緩存存儲器的體積也會對性能產生影響，它能減少主頻所承載的工作負荷以提高其運算速度。處理器內核的數量(Ncores)同樣會影響性能和成本。內存子系統的速度可以根據雙列直插內存模塊頻率(fDIMM)和匯流排頻率(fBus)進行參數化，它在工作負荷狀態下也對性能產生影響。同樣，電纜相互連接(interconnect fabric)的速度取決於信道點對點串列的頻率。
而其他一些因素，比如雙列直插內存模塊內存延遲(DIMM CAS Latency)，存儲信道的數量等都做為次要因素暫時忽略不計。
使用的性能參數
在圖示中標明的6個性能參數中，保留四個和模型相關的參數。
首先忽略信道點對點串列的頻率(fPCIe)，因為它主要影響的是電纜相互連接(interconnect fabric)速度的性能，這不在范圍之列。
接下來注意一下雙列直插內存模塊頻率(fDIMM)和匯流排頻率(fBus)會由於內存控制中心(MCH)而限於固定比率。
使用的雙核系統中，這些比率最具代表性的是4:5, 1:1, 5:4。一般情況下只會用到其中的一個。高速緩存存儲器的體積非常重要。
在這個模型中保留這個參數。內核的數量(Ncores)和內核頻率(fcore)也非常重要，保留這兩個參數。
高性能計算(HPC)模型
這第二個模型的基本形式在計算機體系研究領域已經存在了很多年。
A普通模式是：
(3) CPI = CPI0 + MPI * PPM
這里的CPI指的是處理器在工作負荷狀態下每執行一個指令的周期。CPI0是指內核CPI，MPI I則是指在工作負荷狀態下高速緩存存儲器每個指令失誤的次數(注釋：在高性能計算領域，MPI主要用於信息傳遞界面，在此處主要是指處理器構造慣例)，PPM是指以處理器時鍾滴答聲為單位對高速緩存存儲器每個指令失誤的次數的記錄。第二和第三個方程式相互吻合。這第一個術語代表的是處理器，第二個術語代表的是內存。
可以直觀的看到，假設每項工作下執行的P指令的工作負荷與代表處理器的頻率的內核頻率(每秒鍾處理器運行周期的單位)再與方程式(3)相乘，就得到了方程式(4):
Tnode = (CPIo * P) * (1 / fcore) + (MPI * P) * PPM * (1 / fcore)
在這里要注意(CPIo * P)是以每項工作分配下處理器的運行周期為單位，對微處理器架構上運行的既定工作負荷通常是個恆量。因此把它命名為α。(處理器周期本身無法對時間進行測算，如果乘以內核的頻率就可以得到時間的測算標准。因此Tnode在方程式(4)的右邊)。
(MPI * P)也是同理。對於既定工作負荷和體系結構來說它也是個恆量，但它主要依賴於高速緩存存儲器的體積。我們把它命名為M(MBcache)。而PPM是指訪問主存的成本。對於既定的工作負荷來說，通常是個固定的數字C。PPM乘以內存頻率和匯流排頻率的比值(fcore / fBus)就從匯流排周期(bus cycles)轉化成了處理器周期。因此PM = C * fcore / fBus。套入M(MBcache)就可以得到：
(5) Tnode = α * (1 / fcore) + M(MBcache) * (1 / fbus)
這個例子說明匯流排頻率(bus frequency)也是個恆量，方程式(5)可以簡化為方程式(6)：
(6) Tnode = α * (1 / fcore) + β
在這里Tcore = α * (1 / fcore)，而Tmemory = β(也就是公式2里的術語。我們把這些關鍵點關聯在一起)。
首先在模型2里，公式5和公式6都有堅實的理論基礎，因為經分析過它是如何從公式3推理而來(它主要應用於計算機體系理論)。其次，這個模型4個硬體性能參數的3個已經包括其中。還差一個參數就是內核數量(Ncores)。
用直觀的方式來說明內核的數量，就是假設把N個內核看做是一個網路頻率上運行的一個內核，稱之為N*fcore。那麼根據公式(6)我們大致可以推算出：
(7) Tcore ~ α / (N*fcore)
Tcore~ ( α / N) * (1 / fcore )
也可以把它寫成：
(8) αN = ( α / N)
多核處理器的第一個字母Alpha可能是單核處理器的1/N次。
通過數學推算這幾乎是完全可能的。
通常情況下我們是根據系統內核和匯流排頻率(bus frequencies)來衡量計算機系統性能，如公式(5)所闡述的。但是公式(5)的左邊是時間單位--這個時間單位指的是一項工作量的完成時間。這樣就能更清楚的以時間為單位說明右側的主系統參數。同時請注意內核的時鍾周期τcore(是指每次內核運行周期所需的時間)也等同於(1 / fcore)。匯流排時鍾(bus clock)周期也是同理。
(9) Tnode = αN * τcore + M(MBcache) * τBus
這個公式的轉化也給了一個完成時間的模型，那就是2個基本的自變數τcore和τBus呈現出直線性變化。這對使用一個簡單的棋盤式對照表對真實系統數據進行分析是有幫助的。

3. 建築結構優化設計方法有哪些

一、並行演算法

高層建築結構的主要因素是結構的抵抗水平力的性能。因此，抗側移性能的強弱成為高層建築結構設計的關鍵因素，且是衡量建築結構安全性、穩定性能的標准。
在建築結構中，單位建築結構面積的結構材料中，用於承擔重力荷載的結構材料用量與房屋的層數近似成正比例線性關系。

二、高層體系優化法

建築使用性能的不同，所以其對內部空間的要求不同。同時，高層建築結構使用功能不同，則其平面布置也發生改變。通常，住宅和旅館的客房等宜採用小空間平面布置方案；辦公樓則適合採用大小空間均有；商場、飯店、展覽廳以及工廠廠房等則適宜採用大空間的的平面布置；宴會廳、舞廳則要求結構內部沒有柱子的大空間。

三、可靠度優化法

在非地震災害區高層建築結構的方案選型時，應優先選用抗風性能比較好的結構體系，也就是選用風壓體型系數較小的建築結構體系。這樣可以在很大程度上減小風荷載作用下的扭轉效應引起的結構變形和內力的影響。

4. 《並行演算法的設計與分析》pdf下載在線閱讀，求百度網盤雲資源

《並行演算法的設計與分析》（陳國良）電子書網盤下載免費在線閱讀

資源鏈接：

鏈接：

提取碼：qc2v

書名：並行演算法的設計與分析

作者：陳國良

出版年份：2009-8

頁數：813

內容簡介：第3版在修訂版的基礎上進行了大幅度的修訂，新增加3章、重寫3章，改寫8章。《普通高等教育十一五國家級規劃教材·並行演算法的設計與分析(第3版)》系統深入地討論了計算機領域中諸多計算問題的並行演算法的設計和分析方法。在著重介紹各種並行計算模型上的常用和典型的並行演算法的同時，也力圖反映本學科的最新成就、學科前沿和發展趨勢。

全書共分二十章，包括基礎篇4章(緒論、設計技術、前綴計算、排序和選擇網路)，並行演算法篇9章（排序和選擇演算法、分布式演算法、並行搜索、選路演算法、串匹配、表達式求值、上下文無關語言、圖論演算法、計算幾何），數值並行演算法篇3章（矩陣運算、數值計算、快速傅氏變換），理論篇4章（組合搜索、隨機演算法、VLSI計算理論、並行計算理論）。

《普通高等教育十一五國家級規劃教材·並行演算法的設計與分析(第3版)》取材豐富，內容系統深入，可作為高等學校計算機及其他信息類有關專業高年級本科生和研究生的教材，也可供從事計算機科學理論和並行演算法研究的科技人員閱讀參考。

《普通高等教育十一五國家級規劃教材·並行演算法的設計與分析(第3版)》初版曾獲1994年度教育部高等學校優秀教材一等獎和1997年度國家級教學成果二等獎。

5. 通信演算法工程師的工作職責描述

通信演算法工程師負責通信物理層信號處理演算法研究、開發與驗證，用MATLAB或C語言搭建鏈路級或系統級模擬環境，評估通信物理層信號處理演算法及通信系統的性能。下面是我為您精心整理的通信演算法工程師的工作職責描述。

通信演算法工程師的工作職責描述1

職責：

1. 研究無線通信信號處理關鍵技術;

2. 演算法模型開發以及模塊並行化設計和優化;

3. 演算法模型浮點和定點開發、模擬;

4. 基於FPGA體系結構，對基帶演算法進行優化實現;

5. 模擬模型與標准源一致性驗證、基帶晶元系統一致性驗證/系統調度調試。

任職要求：

1. 通信、信號處理、計算機或相關專業，工作3年及以上;

2. 熟悉通信和信號處理理論;

3. 熟悉Matlab、Verilog HDL語言;

4. 能夠深入理解通信原理、數字信號處理原理，熟悉CW、FM、BPSK、QPSK、16QAM等調制方式，熟練使用模擬工具(MATLAB/C),simulink;

5. 有相關演算法設計、模擬建模經驗者優先;

6. 具有相關經驗者優先。

通信演算法工程師的工作職責描述2

職責：

1、對藍牙、wifi或者其他無線蜂窩網、物聯網等通信系統進行演算法研究與數學模擬;

2、對通信目標、干擾、雜波和信道模擬進行演算法研究與數學模擬;

3、為系統實現提供理論依據，並能將理論計算轉換為物理實現;

4、配合晶元設計工程師完成演算法設計與調試以及方案編寫工作。

任職要求：

1. 電子信息、通信、計算機通信、應用數學或相關專業碩士及以上學歷;

2. 熟練掌握通信和信號處理專業的基礎知識;

3. 熟悉matlab/c/c++等物理層模擬工具;

4. 掌握數字基帶通信演算法、調制、解調、同步、均衡、信道解碼等演算法者優先;

5. 熟悉藍牙、wifi、無線蜂窩網等若干標准數字通信協議之一者優先。

通信演算法工程師的工作職責描述3

職責：

1、主要負責藍牙晶元中的調制解調模塊的性能分析與模擬;

2、為數字設計部門提供定點化實現的模型，指導設計與驗證;

3、分析晶元的調制解調性能指標，指導優化工作。

職位要求：

1、碩士或博士學歷，通信、電子、信號處理等相關專業;

2、有扎實的數字通信和信號處理理論基礎，熟悉通信物理層信號處理，掌握調制解調常用演算法和建模;

3、具有bluetooth、WLAN等無線通信物理層演算法設計經驗者優先;

4、熟悉射頻架構與系統、熟悉天線系統設計者優先;

5、能熟練使用Matlab或者C/C++進行演算法分析和模擬;

6、能熟練使用常見儀器進行信號的產生與採集，並進行性能分析。

通信演算法工程師的工作職責描述4

職責：

1. 負責通信系統物理層方案設計、功能測試和性能優化，系統調試;

2. 用Verilog HDL語言進行通信系統物理層模塊的開發;

3. 用matlab和C進行無線通信系統演算法性能模擬和優化;

崗位要求：

1. 電子/通信類相關專業碩士及以上;

2. 熟悉無線通信原理、數字信號處理演算法，熟悉無線通信物理層關鍵技術;

3. 熟練應用VerilogHDL/SystemVerilog等開發語言;

4. 熟練掌握FPGA開發、調試、驗證流程和方法，具備獨立分析解決問題能力;

5. 熟練掌握C/C++語言或者matlab進行模擬驗證;

6. 有演算法類FPGA實現經驗者優先。

通信演算法工程師的工作職責描述5

職責：

1、負責無線電通信相關的各種信號的檢測、識別、參數估計等演算法的模擬、設計與實現;

2、開展大數據數據挖掘、人工智慧等演算法研究與軟體設計、開發;

3、使用編程語言進行演算法的實現，並進行演算法跨平台移植和性能優化，依照設計規范編寫研發過程的詳細文檔。

任職要求：

1、本科及以上學歷，計算機科學與技術、軟體工程等相關專業;

2、對信號處理理論有較深入的掌握和相關實踐經歷，掌握人工智慧等大數據挖掘演算法技術，有信號處理系統實際開發經驗的優先;

3、精通CC++Matlab編程，會python編程更佳;

4、熟悉Linux平台，對數據結構和演算法設計有較深刻的理解;

6. 計算機體系結構國家重點實驗室（中國科學院計算技術研究所）的研究方向

計算機體系結構國家重點實驗室設立五個主要研究方向，即高端計算機體系結構和設計方法、微體系結構、編譯和編程、VLSI與容錯計算、非傳統計算機體系結構。圍繞五個研究方向，結合實驗室現有的基礎和未來的發展規劃，下設五個實驗室（先進計算機系統實驗室、微體系結構實驗室、編譯與編程實驗室、集成電路實驗室、並行演算法實驗室）和四個研究組（處理器設計研究組、操作系統研究組、存儲體系結構研究組、量子計算研究組）。
以計算機系統結構的學科優勢為依託，圍繞超並行計算機系統和多核處理器開展基礎研究和高技術前沿探索。主要研究方向包括：高性能計算機系統設計理論，微處理器設計的新原理、新結構和新方法。通過研究新型高性能計算機的體系結構，面向新型體系結構的模擬模擬、操作系統、應用建模和優化技術，高端處理器的微體系結構，跨平台多系統虛擬化技術、大規模片上多核並行處理器設計方法、可擴展可重構處理器設計方法，並行程序設計模型、語言、編譯，先進微處理器的代碼生成與優化，計算機體系結構及微體系結構可靠性設計，多核處理器的自測試、自診斷、自修復設計，VLSI測試和設計驗證方法，為高性能計算機系統和高性能處理器設計領域的發展持續提供創新方法和關鍵技術。解決本領域國家急待解決的重大關鍵問題，推動計算機系統結構學科的科技進步。

7. 多核處理器中的「核」指的是甚麼

所謂多核處理器，簡單說就是在一塊CPU基板上集成多個處理器核心，通過並行匯流排將各處理器核心連接起來的，工作速度快

8. 超算神威太湖之光僅僅跑分強勁

11月14日，新一期全球超級計算機500強（TOP500）榜單在美國鹽湖城公布，中國神威太湖之光蟬聯冠軍，中國天河二號屈居次席。除神威太湖之光和天河二號外，中國也在TOP500上榜總數上與美國持平。

正如天河2號獲得6連冠後卻因為使用了Intel公司的至強Phi計算卡而被一些別有用心之徒百般詆毀，在神威太湖之光實現了包括處理器在內的所有核心部件全部國產化後，網路上又傳來了不和諧的音符——有媒體認為，神威太湖之光的「可用性能與理論性能相去甚遠」，並以「HPL效率是74.16%」，「HPCG測試只有0.371PFLOPS，效率則只有0.3%，這比天河2號的1.1%還要低」來質疑神威太湖之光。

言下之意，就是神威太湖之光的可用性能與理論性能相去甚遠，只能用來跑分,根本就用不來。那麼什麼是Linpack和HPCG，神威太湖之光真的只能用來跑分么？

什麼是Linpack？

上面媒體的一段話引用了幾個測試的結果，並以74.16%、0.3%、1.1%等實際數據來說明中國超算可用性能與理論性能相去甚遠，非常具有迷惑性。筆者簡單的就Linpack測試和HPCG測試做個簡要說明。

Linpack指的是矩陣求解，在科學計算中把實際問題抽象成方程組，然後離散成矩陣計算矩陣倍，代表的是傳統的以矩陣為基礎的數值計算方法，常用於理科和工科的數值求解和數值模擬。那麼為何超算大多以Linpack測試成績論高低呢？原因就在於很多科學計算模型都包含了矩陣求解，比如解微分方程，因此在超算任務中具有不可取代性——像輻射流體力學就是求解微分方程；而核爆炸模擬其實就是輻射流體力學+蒙特卡洛預測；雷達截面的矩量法計算也有賴於解微分方程；業內專家還告訴筆者「現在的深度學習演算法的核心演算法與Linpack的是一個」.......因此，linpack測試並非是一些跑分軟體那樣：不服跑個分，而是真正具有實戰價值的測試。

Linpack效率指的是實際計算時的次數除以理論計算，舉例來說：

神威太湖之光的理論性能為125.4 PFlops，Linpack浮點性能93PFlops，Linpack效率為74.16%。

天河2號的理論性能54.9Pflops，Linpack雙精浮點性能33.8PFlops, Linpack效率61.5%

泰坦的理論性能27 Pflops，Linpack雙精浮點性能17.6 PFlops，Linpack效率為65.19%。

紅杉的理論性能為20.1Pflops，Linpack測試雙精浮點性能為16.3P，Linpack效率高達81%。

這里要說明一點，就是超算的規模越大，Linpack測試效率的提高就越難——規模大到如一定程度，維持一段時間的穩定運行是非常難的，何況是太湖神威之光93PFlops的高性能。而神威太湖之光在Linpack測試性能是美國超算泰坦5倍以上的情況下，Linpack測試效率大幅領先於泰坦，這就非常可貴了！至於紅杉的Linpack測試效率為何會高達81%，筆者會在下文做講解。

另外還要說明的的一點，天河2號Linpack效率低於美國泰坦的原因——一方面是因為天河2號的規模更大，影響了效率；另一方面是因為天河2號採用的是Intel的至強PHI計算卡，而該計算卡就以理論性能強大，但穩定性能相對偏低著稱——同樣使用E5和至強PHI計算卡的美國超算Stampede，不僅運算能力僅為天河2號的五分之一左右（未升級前，升級後為三分之一），整機效率比天河2號更低，只有60.7%。

總而言之，以神威太湖之光的規模，取得Linpack效率達到74.16%已經非常厲害了，在採用異構計算的超算中屬於頂尖水平，大家千萬不要被一些無良媒體誤導了。

異構超算在Linpack效率上天然低於同構超算

對於筆者認為的神威太湖之光Linpack效率達到74.16%屬於頂尖水平的結論，也許某些人會提出異議，比如會列舉出TOP500排名第四的美國超算紅杉，紅杉的理論性能為20.1Pflops，Linpack測試雙精浮點性能為16.3P，Linpack效率高達81%。

那麼為何紅杉的Linpack效率如此之高呢？原因就在於和神威太湖之光、天河2號、泰坦等採用異構計算的超算不同，紅杉採用的依舊是傳統的同構計算技術。

超算可以分為兩種架構。採用同構計算架構的超算只需要單純使用一種處理器，在同一類型的處理器上執行計算任務。舉例來說，中國超算神威藍光採用了申威1600，美國的米拉和紅杉採用了PowerPC-A2處理器，這些超算都沒有採用GPU或其它類型的眾核晶元等加速器。因此，紅杉、米拉、神威藍光都是採用同構計算架構超算的代表。

異構計算使用CPU、GPGPU、GPDSP、ASIC、FPGA和其它類型的眾核處理器來處理不同類型的計算任務。採用異構計算架構的超算會使用至少2種類型的處理器，其中異構計算架構中通用CPU負責邏輯復雜的調度和串列任務，加速器負責並行度高的任務，實現計算加速。具體來說，採用異構計算架構的超算在運算中既使用處理器，又使用GPU或眾核晶元等加速器。以中國天河2號和神威太湖之光為例，天河2號有16000個計算節點，每個節點由2片Intel-E5-2692和3片Xeon-Phi組成，共使用了32000片Intel-E5-2692和48000片Xeon-Phi。神威太湖之光雖然只採用了申威26010眾核處理器，看起來像同構超算，但由於申威26010集成了4個管理核心和256個運算核心，一片申威26010就是一個計算節點，管理核心執行類似於天河計算節點中E5的功能，而256個運算核心則發揮了類似於Xeon-Phi的加速作用，因此也屬於異構超算。

由於異構編程需要提前預知模型並做特殊優化，而且很多應用未必適合異構模型，使得採用異構計算的超算對於編程和優化的要求更高——一位業內人士就評價，「異構編程太勞心勞力了，高端人才的精力應該用在關注自己的專業上來，而不是當代碼狗......年紀大一點的科研人員就不願自己編代碼了，一些年青但不願勞思費神的科研人員也不願意編寫異構代碼......」。因此，採用異構計算的超算在Linpack效率上天然低於採用同構計算的超算。

那麼既然同構超算在編程方便和效率上具有優勢，為何全球超算都轉向異構計算呢？原因就在於，這樣超算可以獲得更高的性能，之前抱怨異構編程太勞心勞力的業內朋友就表示，「超算方面眾核是近些年的趨勢，雖然編程勞心費力，但是在性能面前我們還是得忍，相同成本誰不想性能更好，科研對性能的需求可以用飢渴來形容」。

嘮嘮叨叨說這么多，主要是為了打一個補丁，防止別有用心之徒用美國同構超算和中國異構超算比Linpack效率，進而抹黑中國超算Linpack效率低下,何況前者的規模遠遠小於後者。

什麼是HPCG

目前，評價超算的指標有不少，除了測試Linpack的TOP500,還有強調的是內存帶寬和延遲的Graph500，Graph500對全系統的內存帶寬和內存延遲有很高的要求，而計算能力本身已經不影響測試結果了，這種測試偏向於訪存密集型運算，在大數據分析等場景下比較有意義。

除Graph500之外，還有強調節能環保的Green500。那麼，在Graph500和Green500排行榜上，神威太湖之光的表現如何呢？Graph500名列第二，Green500名列第三。

不過，也有工程師認為無論是TOP500，還是Graph500都過於極端——TOP500過於強調計算性能，Graph500過於強調帶寬和延遲等因素，因此採用了新的標准HPCG。

HPCG是美國正在推的一個新測試標准，目前還沒有被業界廣泛接受，HPCG代表了共軛梯度迭代法的一類應用的計算和通信特徵，僅僅代表了某一個方面的特徵，並不能涵蓋超算的所以特徵。HPCG比較重視計算性能和通信的平衡，如果計算性能和通信不是一個量級的，即便兩項指標分開看都很強，但也會導致HPCG偏低的結果。

另外，HPCG也存在一些缺陷，據業內人士介紹，「由於針對具體硬體結構修改共軛梯度演算法很容易得到高得多的成績，為了避免這一點，HPCG代碼目前還在鎖定狀態，不準修改演算法本身。但在使用中，用戶是會修改演算法的，這使得這一測試會脫離實際」。

在某媒體的報道中，「但在更具實戰意義的HPCG性能（高性能共軛梯度基準測試）中，太湖之光只有0.371PFLOPS，效率則只有0.3%，這比天河2號的1.1%還要低」，0.3%和1.1%的數據和該媒體的這種表述很容易讓人誤認為，天河2號和神威太湖之光的HPCG測試結果非常差，但實際上，在HPCG測試排行榜中，天河2號位列第一，而神威太湖之光為列第三，這其實是很不錯的成績。而且一位業內人士猜測，「也許神威還沒有好好進行優化」。

必須指出的是，神威太湖之光的HPCG低於天河2號，並非是因為計算性能或在通信上不如天河2號，恰恰相反，在計算性能上神威太湖之光大幅領先於天河2號，而在互聯網路方面，神威太湖之光也不遜色於天河2號——雖然在帶寬上有差距，但在實際應用中，帶寬指標比較延遲等指標而言並不太重要（延時指的是1個CPU把自己的計算結果交給其他CPU，如及時送到，其他CPU就能繼續計算，否則就要等待了，晶元、鏈路、協議等都會影響延時）。因此，神威太湖之光在HPCG上遜色於天河2號，原因就在於計算性能實在是過於強悍，以至於產生了計算和通信上的不平衡，並最終導致自HPCG上遜色於天河2號。

神威太湖之光能否用得起來？

對於神威太湖之光根本用不起來的說法，其實只要關注新聞，就能明白這是徹頭徹尾的謊言。憑借「神威?太湖之光」強悍的計算性能，國內科研單位在天氣氣候、航空航天、海洋科學、新葯創制、先進製造、新材料等重1要領域取得了一批應用成果——由中科院軟體所、清華大學和北京師范大學申報的「全球大氣非靜力雲分辨模擬」課題，由國家海洋局海洋一所和清華大學申報的「全球高解析度海浪數值模式」課題，由中科院網路中心申報的「鈦合金微結構演化相場模擬」課題分別入圍了戈登貝爾獎，使中國在該領域實現零的突破。戈登貝爾獎是高性能計算應用領域的最高獎，神威太湖之光用事實說明，完全自主研發的超算不僅可以用起來，還能用的好。

另外，筆者介紹幾個神威太湖之光的具體應用：

應用一：基於國產平台的國產地球系統模式。

「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。

本文由科普中國融合創作出品，轉載請註明出處。

9. pso的並行演算法

與大多數隨機優化演算法相似，當適應值評價函數的計算量比較大時，PSO演算法的計算量會很大。為了解決該問題，研究者提出了並行PSO演算法。與並行遺傳演算法類似，並行PSO演算法也可以有三種並行群體模型：主從並行模型、島嶼群體模型和鄰接模型。
Schutte採用同步實現方式，在計算完一代中所有點的適應值之後才進入下一代。這種並行方法雖然實現簡單，但常常會導致並行效率很差。故而有人提出非同步方式的並行演算法，可以在對數值精度影響不大的條件下提高PSO演算法的並行性能。這兩種方式採用的都是主從並行模型，其中非同步方式在求解上耦合性更高，更容易產生通信瓶頸。
Baskar提出一種兩個子種群並行演化的並發PSO演算法，其中一個子種群採用原始的PSO演算法，另一個子種群採用基於適應值距離比的PSO演算法（FDR-PSO）；兩個子種群之間頻繁地進行信息交換。而El-Abd研究了在子種群中採用局部鄰域版本的協作PSO演算法，並研究了多種信息交換的方式及其對演算法性能的影響。黃芳提出一種基於島嶼群體模型的並行PSO演算法，並引入一種集中式遷移策略，提高了求解效率，同時改善了早收斂現象。
Li提出延遲交換信息的並行演算法屬於鄰接模型，該演算法可以提高速度，但可能使得解的質量變差。

10. 並行處理的並行演算法的基本策略

在並行處理技術中所使用的演算法主要遵循三種策略：
1．分而治之法：也就是把多個任務分解到多個處理器或多個計算機中，然後再按照一定的拓撲結構來進行求解。
2．重新排序法：分別採用靜態或動態的指令詞度方式。
3．顯式/隱式並行性結合：顯式指的是並行語言通過編譯形成並行程序，隱式指的是串列語言通過編譯形成並行程序，顯式/隱式並行性結合的關鍵就在於並行編譯，而並行編譯涉及到語句、程序段、進程以及各級程序的並行性。
二、並行性描述定義
利用計算機語言進行並行性描述的時候主要有三種方案：
1．語言擴展方案：也就是利用各種語言的庫函數來進行並行性功能的擴展。
2．編譯制導法：也稱為智能編譯，它是隱式並行策略的體現，主要是由並行編譯系統進行程序表示、控制流的分析、相關分析、優化分析和並行化劃分，由相關分析得到方法庫管理方案，由優化分析得到知識庫管理方案，由並行化劃分得到程序重構，從而形成並行程序。
3．新的語言結構法：這是顯式並行策略的體現。也就是建立一種全新的並行語言的體系，而這種並行語言通過編譯就能直接形成並行程序。
三、並行軟體
並行軟體可分成並行系統軟體和並行應用軟體兩大類，並行系統軟體主要指並行編譯系統和並行操作系統，並行應用軟體主要指各種軟體工具和應用軟體包。在軟體中所牽涉到的程序的並行性主要是指程序的相關性和網路互連兩方面。
1．程序的相關性：程序的相關性主要分為數據相關、控制相關和資源相關三類。
數據相關說明的是語句之間的有序關系，主要有流相關、反相關、輸出相關、I/O相關和求知相關等，這種關系在程序運行前就可以通過分析程序確定下來。數據相關是一種偏序關系，程序中並不是每一對語句的成員都是相關聯的。可以通過分析程序的數據相關，把程序中一些不存在相關性的指令並行地執行，以提高程序運行的速度。
控制相關指的是語句執行次序在運行前不能確定的情況。它一般是由轉移指令引起的，只有在程序執行到一定的語句時才能判斷出語句的相關性。控制相關常使正在開發的並行性中止，為了開發更多的並行性，必須用編譯技術克服控制相關。
而資源相關則與系統進行的工作無關，而與並行事件利用整數部件、浮點部件、寄存器和存儲區等共享資源時發生的沖突有關。軟體的並行性主要是由程序的控制相關和數據相關性決定的。在並行性開發時往往把程序劃分成許多的程序段——顆粒。顆粒的規模也稱為粒度，它是衡量軟體進程所含計算量的尺度，一般用細、中、粗來描述。劃分的粒度越細，各子系統間的通信時延也越低，並行性就越高，但系統開銷也越大。因此，我們在進行程序組合優化的時候應該選擇適當的粒度，並且把通訊時延盡可能放在程序段中進行，還可以通過軟硬體適配和編譯優化的手段來提高程序的並行度。
2．網路互連：將計算機子系統互連在一起或構造多處理機或多計算機時可使用靜態或動態拓撲結構的網路。靜態網路由點一點直接相連而成，這種連接方式在程序執行過程中不會改變，常用來實現集中式系統的子系統之間或分布式系統的多個計算結點之間的固定連接。動態網路是用開關通道實現的，它可動態地改變結構，使之與用戶程序中的通信要求匹配。動態網路包括匯流排、交叉開關和多級網路，常用於共享存儲型多處理機中。在網路上的消息傳遞主要通過尋徑來實現。常見的尋徑方式有存儲轉發尋徑和蟲蝕尋徑等。在存儲轉發網路中以長度固定的包作為信息流的基本單位，每個結點有一個包緩沖區，包從源結點經過一系列中間結點到達目的結點。存儲轉發網路的時延與源和目的之間的距離(段數)成正比。而在新型的計算機系統中採用蟲蝕尋徑，把包進一步分成一些固定長度的片，與結點相連的硬體尋徑器中有片緩沖區。消息從源傳送到目的結點要經過一系列尋徑器。同一個包中所有的片以流水方式順序傳送，不同的包可交替地傳送，但不同包的片不能交叉，以免被送到錯誤的目的地。蟲蝕尋徑的時延幾乎與源和目的之間的距離無關。在尋徑中產生的死鎖問題可以由虛擬通道來解決。虛擬通道是兩個結點間的邏輯鏈，它由源結點的片緩沖區、結點間的物理通道以及接收結點的片緩沖區組成。物理通道由所有的虛擬通道分時地共享。虛擬通道雖然可以避免死鎖，但可能會使每個請求可用的有效通道頻寬降低。因此，在確定虛擬通道數目時，需要對網路吞吐量和通信時延折衷考慮。
四、硬體技術在硬體技術方面主要從處理機、存儲器和流水線三個方面來實現並行。
1．處理機：主要的處理機系列包括CISC、RISC、超標量、VL1W、超流水線、向量以及符號處理機。
傳統的處理機屬於復雜指令系統計算(CISC)結構。指令系統大，指令格式可變，通用寄存器個數較少，基本上使用合一的指令與數據高速緩存，時鍾頻率較低，CPI較高，大多數利用ROM 實現微碼控制CPU，而當今的精簡指令系統計算(RISC)處理機指令格式簡單規范，面向寄存器堆，採用重疊寄存器窗口技術，具有多級Cache，多種流水線結構，強調編譯優化技術，時鍾頻率快，CPI低，大多數用硬連線控制CPU。
CISC或RISC標量處理機都可以採用超標量或向量結構來改善性能。標量處理機在每個周期內只發射一條指令並要求周期只完成從流水線來的一條指令。而在超標量處理機中，使用了多指令流水線，每個周期要發射多條指令並產生多個結果。由於希望程序中有許多的指令級並行性，因此超標量處理機更要依靠優化編譯器去開發並行性。
VL1W 結構是將水平微碼和超標量處理這兩種普遍採用的概念結合起來產生的。典型的超長指令字VL1W 機器指令字長度有數百位。在VLlW 處理機中，多個功能部件是並發工作的，所有的功能部件共享使用公用大型寄存器堆，由功能部件同時執行的各種操作是用VL1W 指令來同步的，每條指令可指定多個操作。VL1W 指令解碼比超標量指令容易，但在開發不同數量的並行性時總是需要不同的指令系統。VL1W 主要是開發標量操作之間的並行性，它的成功與否很大程度取決於代碼壓縮的效率，其結構和任何傳統的通用處理機完全不兼容。即使同一結構的不同實現也不大可能做到彼此二進制兼容。VL1W 的主要優點在於它的硬體結構和指令系統簡單，在科學應用領域可以發揮良好作用，但在一般應用場合可能並不很好用。
向量處理機對數組執行向量指令，每條指令都包含一串重復的操作。它是專門設計用來完成向量運算的協處理機，通常用於多流水線超級計算機中。向量處理機可以利用循環級展開所得的並行性，它可以附屬於任何標量處理機。專用的向量流水線可以在循環控制中消除某些軟體開銷，它的效果與優化編譯器將順序代碼向量化的性能很有關系。從理論上說，向量機可以具有和超標量處理機同樣的性能，因此可以說向量機的並行性與超標量機相同。
符號處理機是為AI應用而研製的，已用於定理證明、模式識別、專家系統、知識工程、文本檢索、科學以及機器智能等許多應用領域。在這些應用中，數據和知識表達式、原語操作、演算法特性、存儲器、I/0和通信以及專用的結構特性與數值計算是不一樣的，符號處理機也稱為邏輯程序設計語言處理機、表處理語言處理機或符號變換器。符號處理並不和數值數據打交道，它處理的是邏輯程序、符號表、對象、劇本、黑板、產生式系統、語義網路、框架以及人工神經網路等問題。這些操作需要專門的指令系統，通常不使用浮點操作。
2．存儲器：存儲設備按容量和存取時間從低到高可分為寄存器、高速緩存、主存儲器、磁碟設備和磁帶機五個層次。較低層存儲設備與較高層的相比，存取速度較快、容量較小，每位元組成本較高、帶寬較寬、傳輸單位較小。
存放在存儲器層次結構中的信息滿足三個重要特性：包含性、一致性和局部性。所謂包含性，指的是一個信息字的復製品可以在比它高的所有層中找到，而如果在高層中丟失了一個信息，則在比它低的所有層中此信息也將丟失。CPU 和高速緩存之間的信息傳送是按字進行的，高速緩存和主存儲器間用塊作為數據傳送的基本單位，主存和磁碟之間又是以頁面為基本單位來傳送信息的，而在磁碟和磁帶機之間的數據傳送則是按文件級處理的。所謂一致性要求的是同一個信息項與後繼存儲器層次上的副本是一致的。也就是說，如果在高速緩存中的一個字被修改過，那麼在所有更高層上該字的副本也必須立即或最後加以修改。為了盡量減少存儲器層次結構的有效存取時間，通常把頻繁使用的信息放在較低層次。維護存儲器層次結構一致性一般有兩種策略，一種是寫直達策略，也就是如果，則立即在所有高層存儲器中進行同樣的修改；另一種是寫回策略，也就是在較低層中對信息進行修改後並不立即在高層存儲器中進行相應的修改，而是等到該信息將被替換或將從低層中消失時才在所有高層存儲器中進行同樣的修改。甚至可以將寫直達和寫回策略的優點結合起來，形成寫一次協議來維護存儲器的一致性。
存儲器的層次結構是在一種程序行為——訪問的局部性基礎上開發出來的。主要有時間局部性、空間局部性和順序局部性。時間局部性指的是最近的訪問項很可能在不久的將來再次被訪問。它往往會引起對最近使用區域的集中訪問。空間局部性表示一種趨勢，指的是一個進程訪問的各項其地址彼此很近。順序局部性指的是在典型程序中，除非是轉移指令，一般指令都是順序執行的。
在多處理機系統中一般使用共享存儲器。對共享存儲器的組織一般採用低位交叉、高位交叉、高低位交叉三種方法。低位交叉又稱並發存取，它是把相鄰的地址放在相鄰的存儲器模塊中，在訪問時不容易產生沖突，並行性較好，但可靠性容錯能力和擴展性均較差。高位交叉又稱允許同時存取，它是把相鄰地址分配到同一個存儲器模塊中，可靠性、容錯能力和擴展性均較強，但訪問時易產生沖突，帶寬較窄，並行性較差。高低位交叉存取又稱C—s存取，它是結合了高位交叉和低位交叉兩種方法的優點，既解決了沖突問題，又能有效地提高容錯能力和並行性，最適合於向量處理機結構。
3．流水線：流水線技術主要有指令流水線技術和運算流水線技術兩種。
指令流水線技術主要目的是要提高計算機的運行效率和吞吐率。它主要通過設置預取指令緩沖區、設置多功能部件、進行內部數據定向、採取適當的指令調度策略來實現。指令調度的策略主要有靜態和動態兩種，靜態詞度是基於軟體的，主要由編譯器完成，動態詞度是基於硬體的，主要是通過硬體技術進行。
運算流水線主要有單功能流水線和多功能流水線兩種。其中多功能流水線又可分為靜態流水線和動態流水線。靜態流水線技術只用來實現確定的功能，而動態流水線可以在不同時間重新組合，實現不同的功能，它除流線連接外，還允許前饋和反饋連接，因此也稱為非線性流水線。這些前饋和反饋連接使得進入流水線的相繼事件的詞度變得很不簡單。由於這些連接，流水線不一定從最後一段輸出。根據不同的數據流動模式，人們可以用同一條流水線求得不同功能的值。
並行計算機發展簡述
40 年代開始的現代計算機發展歷程可以分為兩個明顯的發展時代：串列計算時代、並行計算時代。每一個計算時代都從體系結構發展開始，接著是系統軟體（特別是編譯器與操作系統）、應用軟體，最後隨著問題求解環境的發展而達到頂峰。創建和使用並行計算機的主要原因是因為並行計算機是解決單處理器速度瓶頸的最好方法之一。
並行計算機是由一組處理單元組成的，這組處理單元通過相互之間的通信與協作，以更快的速度共同完成一項大規模的計算任務。因此，並行計算機的兩個最主要的組成部分是計算節點和節點間的通信與協作機制。並行計算機體系結構的發展也主要體現在計算節點性能的提高以及節點間通信技術的改進兩方面。
60 年代初期，由於晶體管以及磁芯存儲器的出現，處理單元變得越來越小，存儲器也更加小巧和廉價。這些技術發展的結果導致了並行計算機的出現，這一時期的並行計算機多是規模不大的共享存儲多處理器系統，即所謂大型主機（Mainframe）。IBM360 是這一時期的典型代表。
到了60 年代末期，同一個處理器開始設置多個功能相同的功能單元，流水線技術也出現了。與單純提高時鍾頻率相比，這些並行特性在處理器內部的應用大大提高了並行計算機系統的性能。伊利諾依大學和Burroughs 公司此時開始實施IlliacIV 計劃，研製一台64 個CPU 的SIMD 主機系統，它涉及到硬體技術、體系結構、I/O 設備、操作系統、程序設計語言直至應用程序在內的眾多研究課題。不過，當一台規模大大縮小了的16CPU 系統終於在1975 年面世時，整個計算機界已經發生了巨大變化。
首先是存儲系統概念的革新，提出虛擬存儲和緩存的思想。IBM360/85 系統與360/91是屬於同一系列的兩個機型，360/91 的主頻高於360/85，所選用的內存速度也較快，並且採用了動態調度的指令流水線；但是，360/85 的整體性能卻高於360/91，唯一的原因就是前者採用了緩存技術，而後者則沒有。
其次是半導體存儲器開始代替磁芯存儲器。最初，半導體存儲器只是在某些機器被用作緩存，而CDC7600 則率先全面採用這種體積更小、速度更快、可以直接定址的半導體存儲器，磁芯存儲器從此退出了歷史舞台。與此同時，集成電路也出現了，並迅速應用到了計算機中。元器件技術的這兩大革命性突破，使得IlliacIV 的設計者們在底層硬體以及並行體系結構方面提出的種種改進都大為遜色。
1976 年CRAY-1 問世以後，向量計算機從此牢牢地控制著整個高性能計算機市場15 年。CRAY-1 對所使用的邏輯電路進行了精心的設計，採用了我們如今稱為RISC 的精簡指令集，還引入了向量寄存器，以完成向量運算。這一系列全新技術手段的使用，使CRAY-1 的主頻達到了80MHz。
微處理器隨著機器的字長從4 位、8 位、16 位一直增加到32 位，其性能也隨之顯著提高。正是因為看到了微處理器的這種潛力，卡內基- 梅隆大學開始在當時流行的DECPDP11 小型計算機的基礎上研製成功一台由16 個PDP11/40 處理機通過交叉開關與16 個共享存儲器模塊相連接而成的共享存儲多處理器系統C.mmp。
從80 年代開始，微處理器技術一直在高速前進。稍後又出現了非常適合於SMP 方式的匯流排協議，而伯克利加州大學則對匯流排協議進行了擴展，提出了Cache 一致性問題的處理方案。從此，C.mmp 開創出的共享存儲多處理器之路越走越寬；現在，這種體系結構已經基本上統治了伺服器和桌面工作站市場。
同一時期，基於消息傳遞機制的並行計算機也開始不斷涌現。80 年代中期，加州理工成功地將64 個i8086/i8087 處理器通過超立方體互連結構連結起來。此後，便先後出現了Intel iPSC 系列、INMOS Transputer 系列，Intel Paragon 以及IBM SP 的前身Vulcan 等基於消息傳遞機制的並行計算機。
80 年代末到90 年代初，共享存儲器方式的大規模並行計算機又獲得了新的發展。IBM將大量早期RISC 微處理器通過蝶形互連網路連結起來。人們開始考慮如何才能在實現共享存儲器緩存一致的同時，使系統具有一定的可擴展性（Scalability）。90 年代初期，斯坦福大學提出了DASH 計劃，它通過維護一個保存有每一緩存塊位置信息的目錄結構來實現分布式共享存儲器的緩存一致性。後來，IEEE 在此基礎上提出了緩存一致性協議的標准。
90 年代以來，主要的幾種體系結構開始走向融合。屬於數據並行類型的CM-5 除大量採用商品化的微處理器以外，也允許用戶層的程序傳遞一些簡單的消息；CRAY T3D是一台NUMA 結構的共享存儲型並行計算機，但是它也提供了全局同步機制、消息隊列機制，並採取了一些減少消息傳遞延遲的技術。
隨著商品化微處理器、網路設備的發展，以及MPI/PVM 等並行編程標準的發布，機群架構的並行計算機出現。IBM SP2 系列機群系統就是其中的典型代表。在這些系統中，各個節點採用的都是標準的商品化計算機，它們之間通過高速網路連接起來。
今天，越來越多的並行計算機系統採用商品化的微處理器加上商品化的互連網路構造，這種分布存儲的並行計算機系統稱為機群。國內幾乎所有的高性能計算機廠商都生產這種具有極高性能價格比的高性能計算機，並行計算機就進入了一個新的時代，並行計算的應用達到了前所未有的廣度和深度。
並行計算機隨著微處理晶元的發展，已經進入了一個新時代。目前並行計算機的性能已經突破20PFLOPS，正在向百億億次發展。我國並行計算機的研製已經走在世界前列。2003年由聯想公司生產的深騰6800 在2003 年11 月世界TOP500 排名中位列第14 名，2004 年曙光公司生產的曙光4000A 在2004 年6 月的世界TOP500 排名中位列第10 名，這是我國公開發布的高性能計算機在世界TOP500 中首次進入前十名，這標志著我國在並行計算機系統的研製和生產中已經趕上了國際先進水平，為提高我國的科學研究水平奠定了物質基礎。2013年國際超級計算機大會最新發布的世界超級計算機500強排名中，國防科技大學研製的天河二號超級計算機系統，以峰值計算速度每秒5.49億億次、持續計算速度每秒3.39億億次雙精度浮點運算的優異性能位居榜首。
從TOP500 的前10 名來看，美國仍然是超級計算機的最大擁有者。按照世界TOP500 的統計數據來分析，美國在計算能力上佔有近全世界的一半，在TOP500 中的所有計算機中擁有的數量超過50%。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1164

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1435

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1128

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1308

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1162

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1520

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：720

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：629

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1291

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1363

並行演算法設計與性能優化

與並行演算法設計與性能優化相關的資訊