并行编译架构

发布时间: 2022-12-24 01:15:48

㈠如何评价CUDA，OpenCL，OpenMP，OpenACC等主流并行运算框架

PGI和Cray才是最早推动这项技术商业化的公司。PGI已经推出了一组非常类似的加速器指令，目前也成为了OpenACC标准的基础部分之一。Cray公司正在开发自己的OpenACC编译器，并且他的XK6客户如橡树岭国家实验室和瑞士国家超级计算机中心，预计将成为该技术的第一批超级计算机用户。
简而言之，OpenACC指令与OpenMP指令工作方式很类似，但前者特别适用于高度数据并行代码。它们可插入标准的C，C + +和Fortran程序直接指导编译器进行某些代码段的并行。编译器会特别注意数据在CPU和GPU（或其他）之间来回转移的逻辑关系，并将计算映射到适当的处理器上。
这样，开发人员就可以在现存的或者新的代码上做相对小的改动以标示出加速并行区域。由于指令设计适用于一个通用并行处理器，这样相同的代码可以运行在多核CPU、GPU或任何编译器支持的其他类型的并行硬件上。这种硬件的独立性对于HPC的用户来说特别重要，因为他们不愿意接受那种受供应商限制的，非便携式编程环境。

㈡着名计算机科学家高光荣享年76岁逝世

着名计算机科学家高光荣享年76岁逝世

着名计算机科学家高光荣享年76岁逝世，着名计算机科学家、数据流体系结构领域的先驱人物、美国特拉华大学电子与计算机工程系终身教授高光荣逝世，享年76岁。他是中国在MIT的第一位计算机博士

着名计算机科学家高光荣享年76岁逝世1

刚刚，新智元获悉，杰出的华人科学家、美国特拉华大学电子与计算机工程系终身教授、数据流体系结构的先驱人物高光荣逝世，享年76岁。

高光荣，1945年生，1968年毕业于清华大学电机系，获学士学位。分别于 1982 年和 1986 年获得麻省理工学院计算机科学硕士、博士学位，是中国在MIT的第一位计算机博士。

高光荣生前任特拉华大学纽瓦克分校名誉教授，计算机体系结构与并行系统实验室 (CAPSL) 的创始主任、清华大学特聘客座教授和中国几所顶尖大学的客座教授。

他的研究领域包括：高性能计算和数据流模型、计算机体系结构和系统、编译器技术和运行时系统、数据流模型下的程序分析、映射和优化。

高光荣2007年当选为IEEE Fellow 和ACM Fellow。2017年获得“罗摩克里希纳·劳奖”，以表彰他在“指令级并行和数据级并行编译技术以及微架构研究领域的卓越贡献”。他是来自中国大陆第一位获得该奖项的科学家。

生前发表300多篇论文，在同行评审国际会议和研讨会中获得多项最佳论文奖。他发起成立了多项顶级国际会议和研讨会，并在大量着名的国际会议和研讨会上（如 HPCA、MICRO、PACT、PLDI、PPoPP、SC、CF、 ICS、IPDPS、MICRO、EuroPar、CASES等）担任会员，并担任多个国际期刊的编委。

高光荣培养了博士生30余人，指导博士后20余人。他们中的许多人有的进入世界各地的大学任教，有的成为创业公司的创始人。其中美团创始人王兴，就是高光荣的学生之一。王兴2005年获美国特拉华大学计算机工程硕士学位。读高光荣的博士，没读完就回国创业。

各方悼念华中科技大学发来唁电

不幸的消息传来，业内不少专家学者第一时间纷纷通过社交媒体悼念高光荣教授。

华为操作系统首席科学家、中央软件院副总裁、OS内核实验室主任陈海波表示：

早上起床就看到这个悲痛的消息。高先生是新中国成立后MIT的第一位来自中国的计算机博士，一直致力于计算机体系结构和编译器的研究，培养了大批计算机人才。

高先生也长期致力于我国体系结构与编译器技术的提升，多次和我说要一起多为我国体系结构与编译器领域多做贡献，2018年还专程回国组织了专题论坛，并主持了“人工智能和大数据应用对计算机系统的挑战”。听说高先生昨天还是操劳ICPP 50周年的事情。

沉痛悼念高老师！高老师千古！

CCF杰出会员、中国科学院计算技术研究所研究员韩银河表示：

沉痛悼念高光荣老师。高老师是数据流体系结构的先驱，影响了计算机体系结构、编译器等多个领域。高老师非常关注国内的计算机体系结构方向的发展，组织过很多课程和讨论会，为中国的很多年轻体系结构学者指明了奋斗的方向。

高老师千古。

原华中科技大学计算机学院金海教授表示：

沉痛悼念世界级的计算机科学家、华中科技大学杰出校友、CCF海外杰出贡献奖获得者高光荣老师！高老师是MIT计算机专业毕业的我国第一位博士，是我在数据流研究领域的引路人，我目前承担的国家自然科学基金委数据流重点基金就是在高老师的指导下获得的，我们目前的图计算机研发思路也是遵循高老师的数据流思想进行设计的。先生风范，高山仰止！高老师，我们永远怀念您！

加州大学圣芭芭拉分校教授，IEEE Fellow谢源教授表示：

华中科技大学也发来唁电，深切缅怀这位杰出校友。

中国计算机学会（CCF）网站称，高光荣教授作为杰出的华人学者，始终心系中国计算机领域的发展，以其优异的学术造诣、广泛的'国际影响力在人才培养，重大科研攻关中发挥着至关重要的作用，为我国计算机的发展，特别是在系统结构，高性能计算等领域争抢、保持国际先进水平做出了杰出贡献。

认为数据流与AI存在“天然联系”，未来将迎来“中国主导”

高光荣认为，数据流与AI之前存在“天然联系”。

此前，在2017年接受媒体采访时，他曾表示，在计算机体系结构的设计中，诞生过很多种想法，但数据流是“活得最长、最有生命力的”。而由于数据流与AI之间的“天然联系”，他也更看好数据流的前景。

历史上人工智能的低潮，与数据流的低潮几乎是一致的。而人工智能计算往往是“不规则的”或“非既定的”，这也与数据流善于并行处理不规则的事情的特点非常相像。

高光荣认为，就像人脑一样，计算机数据流的思想强调‘并行’和‘不规则计算’，从这个角度上来讲，数据流思想或将对未来AI发展带来长足的支持。”

眼下AI如火如荼、热火朝天，数据流也有望再次“回春”。在国力强大的大环境下，中国多年来在人才吸引和培养方面的努力也到了兑现的时刻。

“年轻人都起来了，开放的窗口也开得越来越好，越来越多的高水平人员来中国交流，有的干脆回来工作——数据流正迎来‘中国主导’的机会。”

悼念高光荣先生！

着名计算机科学家高光荣享年76岁逝世2

近日，美国特拉华大学电子与计算机工程系终身教授、数据流体系结构的先驱人物高光荣逝世，享年76岁。

近日，杰出的华人科学家、美国特拉华大学电子与计算机工程系终身教授、数据流体系结构的先驱人物高光荣逝世，享年76岁。

高光荣，1968年毕业于清华大学无线电系，1980年在华中科大读研期间出国学习，并于1982年获美国麻省理工学院硕士学位。1986 年于美国麻省理工学院获博士学位，是新中国成立后第一位获得麻省理工学院计算机博士的学者。

1987 年，高光荣开始任教于加拿大麦吉尔大学，任终身教授，现任美国特拉华大学电子与计算机工程系终身教授，特拉华大学计算机系统结构和并行系统实验室的创始人和领导者，并兼任清华大学客座教授、中科院客座研究员兼联合实验室主任、上海交通大学致远学院海外特聘教授、华中科技大学特聘教授及北京理工大学特聘教授。2007 年，高光荣获得美国计算机协会和美国电子电气工程师协会资深会员荣誉，也是第一位获得双资深会员的大陆学者

高教授的研究集中在数据流模型、并行计算、计算机系统架构、程序分析与优化技术等方面，包括：（1）针对计算，分析，延展的数据流模型；（2）基于数据流的多线程编程/执行模型；（3）计算机系统架构；（4）基于数据流的编译优化模型；（5）软件流水线；（6）程序分析技术。

高光荣教授获得2017年度罗摩克里希纳·劳奖

高光荣2007年当选为IEEE Fellow 和ACM Fellow。2017年获得“罗摩克里希纳·劳奖”（B. Ramakrishna Rau Award），成为全球第7位该奖项得主，也是第一位获得该奖项的来自大陆的华人科学家以表彰他在“指令级并行和数据级并行编译技术以及微架构研究领域的卓越贡献”。

高光荣教授获中国计算机学会（CCF）“2013年度海外杰出贡献奖”。据悉，“CCF海外杰出贡献奖”授予为中国计算机事业作出突出贡献的海外个人，此奖项由国内学者联合提名，每年选出1位获得者，竞争激烈。自此奖项创建以来，共有8位海外人士获此荣誉。

㈢急！！！！急！！！！！！！！！急！！！！！计算机体系结构这门课所解决的问题以及解决的方法在线等

计算机体系结构（ComputerArchitecture）是程序员所看到的计算机的属性，即概念性结构与功能特性。按照计算机系统的多级层次结构，不同级程序员所看到的计算机具有不同的属性。一般来说，低级机器的属性对于高层机器程序员基本是透明的，通常所说的计算机体系结构主要指机器语言级机器的系统结构。经典的关于“计算机体系结构（computerarchitecture）”的定义是1964年C.M.Amdahl在介绍IBM360系统时提出的，其具体描述为“计算机体系结构是程序员所看到的计算机的属性，即概念性结构与功能特性”

基本概念
计算机体系结构就是指适当地组织在一起的一系列系统元素的集合，这些系统元素互相配合、相互协作，通过对信息的处理而完成预先定义的目标。通常包含的系统元素有：计算机软件、计算机硬件、人员、数据库、文档和过程。其中，软件是程序、数据结构和相关文档的集合，用于实现所需要的逻辑方法、过程或控制；硬件是提供计算能力的电子设备和提供外部世界功能的电子机械设备(例如传感器、马达、水泵等)；人员是硬件和软件的用户和操作者；数据库是通过软件访问的大型的、有组织的信息集合；文档是描述系统使用方法的手册、表格、图形及其他描述性信息；过程是一系列步骤，它们定义了每个系统元素的特定使用方法或系统驻留的过程性语境。计算机体系结构
8种属性
1•机内数据表示：硬件能直接辨识和操作的数据类型和格式计算机体系结构
2•寻址方式：最小可寻址单位、寻址方式的种类、地址运算 3•寄存器组织：操作寄存器、变址寄存器、控制寄存器及专用寄存器的定义、数量和使用规则 4•指令系统：机器指令的操作类型、格式、指令间排序和控制机构 5•存储系统：最小编址单位、编址方式、主存容量、最大可编址空间 6•中断机构：中断类型、中断级别，以及中断响应方式等 7•输入输出结构：输入输出的连接方式、处理机/存储器与输入输出设备间的数据交换方式、数据交换过程的控制 8•信息保护：信息保护方式、硬件信息保护机制。
编辑本段发展历程
计算机系统已经经历了四个不同的发展阶段。计算机体系结构
第一阶段
60年代中期以前，是计算机系统发展的早期时代。在这个时期通用硬件已经相当普遍，软件却是为每个具体应用而专门编写的，大多数人认为软件开发是无需预先计划的事情。这时的软件实际上就是规模较小的程序，程序的编写者和使用者往往是同一个(或同一组)人。由于规模小，程序编写起来相当容易，也没有什么系统化的方法，对软件开发工作更没有进行任何管理。这种个体化的软件环境，使得软件设计往往只是在人们头脑中隐含进行的一个模糊过程，除了程序清单之外，根本没有其他文档资料保存下来。
第二阶段
从60年代中期到70年代中期，是计算机系统发展的第二代。在这10年中计算机技术有了很大进步。多道程序、多用户系统引入了人机交互的新概念，开创了计算机应用的新境界，使硬件和软件的配合上了一个新的层次。实时系统能够从多个信息源收集、分析和转换数据，从而使得进程控制能以毫秒而不是分钟来进行。在线存储技术的进步导致了第一代数据库管理系统的出现。计算机系统发展的第二代的一个重要特征是出现了“软件作坊”，广泛使用产品软件。但是，“软件作坊”基本上仍然沿用早期形成的个体化软件开发方法。随着计算机应用的日益普及，软件数量急剧膨胀。在程序运行时发现的错误必须设法改正；用户有了新的需求时必须相应地修改程序；硬件或操作系统更新时，通常需要修改程序以适应新的环境。上述种种软件维护工作，以令人吃惊的比例耗费资源。更严重的是，许多程序的个体化特性使得它们最终成为不可维护的。“软件危机”就这样开始出现了。1968年北大西洋公约组织的计算机科学家在联邦德国召开国际会议，讨论软件危机课题，在这次会议上正式提出并使用了“软件工程”这个名词，一门新兴的工程学科就此诞生了。
第三阶段
计算机系统发展的第三代从20世纪70年代中期开始，并且跨越了整整10年。在这10年中计算机技术又有了很大进步。分布式系统极大地增加亍计算机系统的复杂性，局域网、广域网、宽带数字通信以及对“即时”数据访问需求的增加，都对软件开发者提出了更高的要求。但是，在这个时期软件仍然主要在工业界和学术界应用，个人应用还很少。这个时期的主要特点是出现了微处理器，而且微处理器获得了广泛应用。以微处理器为核心的“智能”产品随处可见，当然，最重要的智能产品是个人计算机。在不到10年的时间里，个人计算机已经成为大众化的商品。在计算机系统发展的第四代已经不再看重单台计算机和程序，人们感受到的是硬件和软件的综合效果。由复杂操作系统控制的强大的桌面机及局域网和广域网，与先进的应用软件相配合，已经成为当前的主流。计算机体系结构已迅速地从集中的主机环境转变成分布的客户机／服务器(或浏览器／服务器)环境。世界范围的信息网为人们进行广泛交流和资源的充分共享提供了条件。软件产业在世界经济中已经占有举足轻重的地位。随着时代的前进，新的技术也不断地涌现出来。面向对象技术已经在许多领域迅速地取代了传统的软件开发方法。
总结
软件开发的“第四代技术”改变了软件界开发计算机程序的方式。专家系统和人工智能软件终于从实验室中走出来进入了实际应用，解决了大量实际问题。应用模糊逻辑的人工神经网络软件，展现了模式识别与拟人信息处理的美好前景。虚拟现实技术与多媒体系统，使得与用户的通信可以采用和以前完全不同的方法。遗传算法使我们有可能开发出驻留在大型并行生物计算机上的软件。
编辑本段基本原理
计算机体系结构解决的是计算机系统在总体上、功能上需要解决的问题，它和计算机组成、计算机实现是不同的概念。一种体系结构可能有多种组成，一种组成也可能有多种物理实现。计算机体系结构
计算机系统结构的逻辑实现，包括机器内部数据流和控制流的组成以及逻辑设计等。其目标是合理地把各种部件、设备组成计算机，以实现特定的系统结构，同时满足所希望达到的性能价格比。一般而言，计算机组成研究的范围包括：确定数据通路的宽度、确定各种操作对功能部件的共享程度、确定专用的功能部件、确定功能部件的并行度、设计缓冲和排队策略、设计控制机构和确定采用何种可靠技术等。计算机组成的物理实现。包括处理机、主存等部件的物理结构，器件的集成度和速度，器件、模块、插件、底板的划分与连接，专用器件的设计，信号传输技术，电源、冷却及装配等技术以及相关的制造工艺和技术。
编辑本段分类
Flynn分类法
1966年，Michael.J.Flynn提出根据指令流、数据流的多倍性（multiplicity）特征对计算机系统进行分类，定义如下。 •指令流：机器执行的指令序列计算机体系结构
•数据流：由指令流调用的数据序列，包括输入数据和中间结果 •多倍性：在系统性能瓶颈部件上同时处于同一执行阶段的指令或数据的最大可能个数。 Flynn根据不同的指令流-数据流组织方式把计算机系统分为4类。 1•单指令流单数据流（，SISD） SISD其实就是传统的顺序执行的单处理器计算机，其指令部件每次只对一条指令进行译码，并只对一个操作部件分配数据。 2•单指令流多数据流（，SIMD） SIMD以并行处理机为代表，结构如图，并行处理机包括多个重复的处理单元PU1～PUn，由单一指令部件控制，按照同一指令流的要求为它们分配各自所需的不同的数据。 3•多指令流单数据流（，MISD） MISD的结构，它具有n个处理单元，按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。一个处理单元的输出又作为另一个处理单元的输入。 4•多指令流多数据流（，MIMD） MIMD的结构，它是指能实现作业、任务、指令等各级全面并行的多机系统，多处理机就属于MIMD。（2）
冯式分类法
1972年冯泽云提出用最大并行度来对计算机体系结构进行分类。所谓最大并行度Pm是指计算机系统在单位时间内能够处理的最大的二进制位数。设每一个时钟周期△ti内能处理的二进制位数为Pi，则T个时钟周期内平均并行度为Pa=(∑Pi)／T(其中i为1，2，…，T)。平均并行度取决于系统的运行程度，与应用程序无关，所以，系统在周期T内的平均利用率为μ=Pa/Pm=(∑Pi)/(T*Pm)。用最大并行度对计算机体系结构进行的分类。用平面直角坐标系中的一点表示一个计算机系统，横坐标表示字宽(N位)，即在一个字中同时处理的二进制位数；纵坐标表示位片宽度(M位)，即在一个位片中能同时处理的字数，则最大并行度Pm=N*M。由此得出四种不同的计算机结构： ①字串行、位串行(简称WSBS)。其中N＝1，M＝1。 ②字并行、位串行(简称WPBS)。其中N＝1，M>1。 ③字串行、位并行(简称WSBP)。其中N>1，M＝1。 ④字并行、位并行(简称WPBP)。其中N>1，M>1。
编辑本段技术革新
计算机体系结构以图灵机理论为基础，属于冯•诺依曼体系结构。本质上，图灵机理论和冯•诺依曼体系结构是一维串行的，而多核处理器则属于分布式离散的并行结构，需要解决二者的不匹配问题。首先，串行的图灵机模型和物理上分布实现的多核处理器的匹配问题。图灵机模型意味着串行的编程模型。串行程序很难利用物理上分布实现的多个处理器核获得性能加速.与此同时,并行编程模型并没有获得很好的推广，仅仅局限在科学计算等有限的领域.研究者应该寻求合适的机制来实现串行的图灵机模型和物理上分布实现的多核处理器的匹配问题或缩小二者之间的差距，解决“并行程序编程困难，串行程序加速小”的问题。计算机体系结构
在支持多线程并行应用方面，未来多核处理器应该从如下两个方向加以考虑。第一是引入新的能够更好的能够表示并行性的编程模型。由于新的编程模型支持编程者明确表示程序的并行性，因此可以极大的提升性能。比如Cell处理器提供不同的编程模型用于支持不同的应用。其难点在于如何有效推广该编程模型以及如何解决兼容性的问题。第二类方向是提供更好的硬件支持以减少并行编程的复杂性。并行程序往往需要利用锁机制实现对临界资源的同步、互斥操作，编程者必须慎重确定加锁的位置，因为保守的加锁策略限制了程序的性能，而精确的加锁策略大大增加了编程的复杂度。一些研究在此方面做了有效的探索。比如，SpeculativeLockElision机制允许在没有冲突的情况下忽略程序执行的锁操作，因而在降低编程复杂度的同时兼顾了并行程序执行的性能。这样的机制使得编程者集中精力考虑程序的正确性问题，而无须过多地考虑程序的执行性能。更激进的，(TCC)机制以多个访存操作（Transaction）为单位考虑数据一致性问题，进一步简化了并行编程的复杂度。主流的商业多核处理器主要针对并行应用，如何利用多核加速串行程序仍然是一个值得关注的问题。其关键技术在于利用软件或硬件自动地从串新程序中派生出能够在多核处理器上并行执行的代码或线程。多核加速串行程序主要有三种方法，包括并行编译器、推测多线程以及基于线程的预取机制等。在传统并行编译中，编译器需要花费很大的精力来保证拟划分线程之间不存在数据依赖关系。编译时存在大量模糊依赖，尤其是在允许使用指针（如C程序）的情况下，编译器不得不采用保守策略来保证程序执行的正确性。这大大限制了串行程序可以挖掘的并发程度，也决定了并行编译器只能在狭窄范围使用。为解决这些问题，人们提出推测多线程以及基于线程的预取机制等。然而，从这种概念提出到现在为止，这个方向的研究大部分局限于学术界，仅有个别商业化处理器应用了这种技术，并且仅仅局限于特殊的应用领域。我们认为动态优化技术和推测多线程（包括基于线程的预取机制）的结合是未来的可能发展趋势。冯•诺依曼体系结构的一维地址空间和多核处理器的多维访存层次的匹配问题。本质上，冯•诺依曼体系结构采用了一维地址空间。由于不均匀的数据访问延迟和同一数据在多个处理器核上的不同拷贝导致了数据一致性问题。该领域的研究分为两大类：一类研究主要是引入新的访存层次。新的访存层次可能采用一维分布式实现方式。典型的例子是增加分布式统一编址的寄存器网络。全局统一编址的特性避免了数据一致性地考虑。同时，相比于传统的大容量cache访问，寄存器又能提供更快的访问速度。TRIPS和RAW都有实现了类似得寄存器网络。令另外，新的访存层次也可以是私有的形式。比如每个处理器和都有自己私有的访存空间。其好处是更好的划分了数据存储空间，已洗局部私有数据没有必要考虑数据一致性问题。比如Cell处理器为每个SPE核设置了私有的数据缓冲区。另一类研究主要涉及研制新的cache一致性协议。其重要趋势是放松正确性和性能的关系。比如推测Cache协议在数据一致性未得到确认之前就推测执行相关指令，从而减少了长迟访存操作对流水线的影响。此外，TokenCoherence和TCC也采用了类似的思想。程序的多样性和单一的体系结构的匹配问题。未来的应用展现出多样性的特点。一方面，处理器的评估不仅仅局限于性能，也包括可靠性，安全性等其他指标。另一方面，即便考虑仅仅追求性能的提高，不同的应用程序也蕴含了不同层次的并行性。应用的多样性驱使未来的处理器具有可配置、灵活的体系结构。TRIPS在这方面作了富有成效的探索，比如其处理器核和片上存储系统均有可配置的能力，从而使得TRIPS能够同时挖掘指令级并行性、数据级并行性及指令级并行性。多核和Cell等新型处理结构的出现不仅是处理器架构历史上具有里程碑式的事件，对传统以来的计算模式和计算机体系架构也是一种颠覆 2005年，一系列具有深远影响的计算机体系结构被曝光，有可能为未来十年的计算机体系结构奠定根本性的基础，至少为处理器乃至整个计算机体系结构做出了象征性指引。随着计算密度的提高，处理器和计算机性能的衡量标准和方式在发生变化，从应用的角度讲，讲究移动和偏向性能两者已经找到了最令人满意的结合点，并且有可能引爆手持设备的急剧膨胀。尽管现在手持设备也相对普及，在计算能力、可扩展性以及能耗上，完全起步到一台手持设备应该具备的作用；另一方面，讲究性能的服务器端和桌面端，开始考虑减少电力消耗赶上节约型社会的大潮流。 Cell本身适应这种变化，同样也是它自己创造了这种变化。因而从它开始就强调了不一样的设计风格，除了能够很好地进行多倍扩展外，处理器内部的SPU(SynergisticProcessorUnit协同处理单元)具有很好的扩展性，因而可以同时面对通用和专用的处理，实现处理资源的灵活重构。也就意味着，通过适当的软件控制，Cell能应付多种类型的处理任务，同时还能够精简设计的复杂。

㈣什么是计算机体系结构中的并行性

并行处理（Parallel Processing）是计算机系统中能同时执行两个或更多个处理机的一种计算方法。处理机可同时工作于同一程序的不同方面。并行处理的主要目的是节省大型和复杂问题的解决时间。为使用并行处理，首先需要对程序进行并行化处理，也就是说将工作各部分分配到不同处理机中。而主要问题是并行是一个相互依靠性问题，而不能自动实现。此外，并行也不能保证加速。但是一个在 n 个处理机上执行的程序速度可能会是在单一处理机上执行的速度的 n 倍。
计算机体系结构(ComputerArchitecture)是程序员所看到的计算机的属性，即概念性结构与功能特性。按照计算机系统的多级层次结构，不同级程序员所看到的计算机具有不同的属性。一般来说，低级机器的属性对于高层机器程序员基本是透明的，通常所说的计算机体系结构主要指机器语言级机器的系统结构。经典的关于"计算机体系结构(computerarchitecture)"的定义是1964年C.M.Amdahl在介绍IBM360系统时提出的，其具体描述为"计算机体系结构是程序员所看到的计算机的属性，即概念性结构与功能特性" 。
利用计算机语言进行并行性描述的时候主要有三种方案:
1.语言扩展方案:也就是利用各种语言的库函数来进行并行性功能的扩展。
2.编译制导法:也称为智能编译，它是隐式并行策略的体现，主要是由并行编译系统进行程序表示、控制流的分析、相关分析、优化分析和并行化划分，由相关分析得到方法库管理方案，由优化分析得到知识库管理方案，由并行化划分得到程序重构，从而形成并行程序。
3.新的语言结构法:这是显式并行策略的体现。也就是建立一种全新的并行语言的体系，而这种并行语言通过编译就能直接形成并行程序。

㈤并行处理的并行算法的基本策略

在并行处理技术中所使用的算法主要遵循三种策略：
1．分而治之法：也就是把多个任务分解到多个处理器或多个计算机中，然后再按照一定的拓扑结构来进行求解。
2．重新排序法：分别采用静态或动态的指令词度方式。
3．显式/隐式并行性结合：显式指的是并行语言通过编译形成并行程序，隐式指的是串行语言通过编译形成并行程序，显式/隐式并行性结合的关键就在于并行编译，而并行编译涉及到语句、程序段、进程以及各级程序的并行性。
二、并行性描述定义
利用计算机语言进行并行性描述的时候主要有三种方案：
1．语言扩展方案：也就是利用各种语言的库函数来进行并行性功能的扩展。
2．编译制导法：也称为智能编译，它是隐式并行策略的体现，主要是由并行编译系统进行程序表示、控制流的分析、相关分析、优化分析和并行化划分，由相关分析得到方法库管理方案，由优化分析得到知识库管理方案，由并行化划分得到程序重构，从而形成并行程序。
3．新的语言结构法：这是显式并行策略的体现。也就是建立一种全新的并行语言的体系，而这种并行语言通过编译就能直接形成并行程序。
三、并行软件
并行软件可分成并行系统软件和并行应用软件两大类，并行系统软件主要指并行编译系统和并行操作系统，并行应用软件主要指各种软件工具和应用软件包。在软件中所牵涉到的程序的并行性主要是指程序的相关性和网络互连两方面。
1．程序的相关性：程序的相关性主要分为数据相关、控制相关和资源相关三类。
数据相关说明的是语句之间的有序关系，主要有流相关、反相关、输出相关、I/O相关和求知相关等，这种关系在程序运行前就可以通过分析程序确定下来。数据相关是一种偏序关系，程序中并不是每一对语句的成员都是相关联的。可以通过分析程序的数据相关，把程序中一些不存在相关性的指令并行地执行，以提高程序运行的速度。
控制相关指的是语句执行次序在运行前不能确定的情况。它一般是由转移指令引起的，只有在程序执行到一定的语句时才能判断出语句的相关性。控制相关常使正在开发的并行性中止，为了开发更多的并行性，必须用编译技术克服控制相关。
而资源相关则与系统进行的工作无关，而与并行事件利用整数部件、浮点部件、寄存器和存储区等共享资源时发生的冲突有关。软件的并行性主要是由程序的控制相关和数据相关性决定的。在并行性开发时往往把程序划分成许多的程序段——颗粒。颗粒的规模也称为粒度，它是衡量软件进程所含计算量的尺度，一般用细、中、粗来描述。划分的粒度越细，各子系统间的通信时延也越低，并行性就越高，但系统开销也越大。因此，我们在进行程序组合优化的时候应该选择适当的粒度，并且把通讯时延尽可能放在程序段中进行，还可以通过软硬件适配和编译优化的手段来提高程序的并行度。
2．网络互连：将计算机子系统互连在一起或构造多处理机或多计算机时可使用静态或动态拓扑结构的网络。静态网络由点一点直接相连而成，这种连接方式在程序执行过程中不会改变，常用来实现集中式系统的子系统之间或分布式系统的多个计算结点之间的固定连接。动态网络是用开关通道实现的，它可动态地改变结构，使之与用户程序中的通信要求匹配。动态网络包括总线、交叉开关和多级网络，常用于共享存储型多处理机中。在网络上的消息传递主要通过寻径来实现。常见的寻径方式有存储转发寻径和虫蚀寻径等。在存储转发网络中以长度固定的包作为信息流的基本单位，每个结点有一个包缓冲区，包从源结点经过一系列中间结点到达目的结点。存储转发网络的时延与源和目的之间的距离(段数)成正比。而在新型的计算机系统中采用虫蚀寻径，把包进一步分成一些固定长度的片，与结点相连的硬件寻径器中有片缓冲区。消息从源传送到目的结点要经过一系列寻径器。同一个包中所有的片以流水方式顺序传送，不同的包可交替地传送，但不同包的片不能交叉，以免被送到错误的目的地。虫蚀寻径的时延几乎与源和目的之间的距离无关。在寻径中产生的死锁问题可以由虚拟通道来解决。虚拟通道是两个结点间的逻辑链，它由源结点的片缓冲区、结点间的物理通道以及接收结点的片缓冲区组成。物理通道由所有的虚拟通道分时地共享。虚拟通道虽然可以避免死锁，但可能会使每个请求可用的有效通道频宽降低。因此，在确定虚拟通道数目时，需要对网络吞吐量和通信时延折衷考虑。
四、硬件技术在硬件技术方面主要从处理机、存储器和流水线三个方面来实现并行。
1．处理机：主要的处理机系列包括CISC、RISC、超标量、VL1W、超流水线、向量以及符号处理机。
传统的处理机属于复杂指令系统计算(CISC)结构。指令系统大，指令格式可变，通用寄存器个数较少，基本上使用合一的指令与数据高速缓存，时钟频率较低，CPI较高，大多数利用ROM 实现微码控制CPU，而当今的精简指令系统计算(RISC)处理机指令格式简单规范，面向寄存器堆，采用重叠寄存器窗口技术，具有多级Cache，多种流水线结构，强调编译优化技术，时钟频率快，CPI低，大多数用硬连线控制CPU。
CISC或RISC标量处理机都可以采用超标量或向量结构来改善性能。标量处理机在每个周期内只发射一条指令并要求周期只完成从流水线来的一条指令。而在超标量处理机中，使用了多指令流水线，每个周期要发射多条指令并产生多个结果。由于希望程序中有许多的指令级并行性，因此超标量处理机更要依靠优化编译器去开发并行性。
VL1W 结构是将水平微码和超标量处理这两种普遍采用的概念结合起来产生的。典型的超长指令字VL1W 机器指令字长度有数百位。在VLlW 处理机中，多个功能部件是并发工作的，所有的功能部件共享使用公用大型寄存器堆，由功能部件同时执行的各种操作是用VL1W 指令来同步的，每条指令可指定多个操作。VL1W 指令译码比超标量指令容易，但在开发不同数量的并行性时总是需要不同的指令系统。VL1W 主要是开发标量操作之间的并行性，它的成功与否很大程度取决于代码压缩的效率，其结构和任何传统的通用处理机完全不兼容。即使同一结构的不同实现也不大可能做到彼此二进制兼容。VL1W 的主要优点在于它的硬件结构和指令系统简单，在科学应用领域可以发挥良好作用，但在一般应用场合可能并不很好用。
向量处理机对数组执行向量指令，每条指令都包含一串重复的操作。它是专门设计用来完成向量运算的协处理机，通常用于多流水线超级计算机中。向量处理机可以利用循环级展开所得的并行性，它可以附属于任何标量处理机。专用的向量流水线可以在循环控制中消除某些软件开销，它的效果与优化编译器将顺序代码向量化的性能很有关系。从理论上说，向量机可以具有和超标量处理机同样的性能，因此可以说向量机的并行性与超标量机相同。
符号处理机是为AI应用而研制的，已用于定理证明、模式识别、专家系统、知识工程、文本检索、科学以及机器智能等许多应用领域。在这些应用中，数据和知识表达式、原语操作、算法特性、存储器、I/0和通信以及专用的结构特性与数值计算是不一样的，符号处理机也称为逻辑程序设计语言处理机、表处理语言处理机或符号变换器。符号处理并不和数值数据打交道，它处理的是逻辑程序、符号表、对象、剧本、黑板、产生式系统、语义网络、框架以及人工神经网络等问题。这些操作需要专门的指令系统，通常不使用浮点操作。
2．存储器：存储设备按容量和存取时间从低到高可分为寄存器、高速缓存、主存储器、磁盘设备和磁带机五个层次。较低层存储设备与较高层的相比，存取速度较快、容量较小，每字节成本较高、带宽较宽、传输单位较小。
存放在存储器层次结构中的信息满足三个重要特性：包含性、一致性和局部性。所谓包含性，指的是一个信息字的复制品可以在比它高的所有层中找到，而如果在高层中丢失了一个信息，则在比它低的所有层中此信息也将丢失。CPU 和高速缓存之间的信息传送是按字进行的，高速缓存和主存储器间用块作为数据传送的基本单位，主存和磁盘之间又是以页面为基本单位来传送信息的，而在磁盘和磁带机之间的数据传送则是按文件级处理的。所谓一致性要求的是同一个信息项与后继存储器层次上的副本是一致的。也就是说，如果在高速缓存中的一个字被修改过，那么在所有更高层上该字的副本也必须立即或最后加以修改。为了尽量减少存储器层次结构的有效存取时间，通常把频繁使用的信息放在较低层次。维护存储器层次结构一致性一般有两种策略，一种是写直达策略，也就是如果，则立即在所有高层存储器中进行同样的修改；另一种是写回策略，也就是在较低层中对信息进行修改后并不立即在高层存储器中进行相应的修改，而是等到该信息将被替换或将从低层中消失时才在所有高层存储器中进行同样的修改。甚至可以将写直达和写回策略的优点结合起来，形成写一次协议来维护存储器的一致性。
存储器的层次结构是在一种程序行为——访问的局部性基础上开发出来的。主要有时间局部性、空间局部性和顺序局部性。时间局部性指的是最近的访问项很可能在不久的将来再次被访问。它往往会引起对最近使用区域的集中访问。空间局部性表示一种趋势，指的是一个进程访问的各项其地址彼此很近。顺序局部性指的是在典型程序中，除非是转移指令，一般指令都是顺序执行的。
在多处理机系统中一般使用共享存储器。对共享存储器的组织一般采用低位交叉、高位交叉、高低位交叉三种方法。低位交叉又称并发存取，它是把相邻的地址放在相邻的存储器模块中，在访问时不容易产生冲突，并行性较好，但可靠性容错能力和扩展性均较差。高位交叉又称允许同时存取，它是把相邻地址分配到同一个存储器模块中，可靠性、容错能力和扩展性均较强，但访问时易产生冲突，带宽较窄，并行性较差。高低位交叉存取又称C—s存取，它是结合了高位交叉和低位交叉两种方法的优点，既解决了冲突问题，又能有效地提高容错能力和并行性，最适合于向量处理机结构。
3．流水线：流水线技术主要有指令流水线技术和运算流水线技术两种。
指令流水线技术主要目的是要提高计算机的运行效率和吞吐率。它主要通过设置预取指令缓冲区、设置多功能部件、进行内部数据定向、采取适当的指令调度策略来实现。指令调度的策略主要有静态和动态两种，静态词度是基于软件的，主要由编译器完成，动态词度是基于硬件的，主要是通过硬件技术进行。
运算流水线主要有单功能流水线和多功能流水线两种。其中多功能流水线又可分为静态流水线和动态流水线。静态流水线技术只用来实现确定的功能，而动态流水线可以在不同时间重新组合，实现不同的功能，它除流线连接外，还允许前馈和反馈连接，因此也称为非线性流水线。这些前馈和反馈连接使得进入流水线的相继事件的词度变得很不简单。由于这些连接，流水线不一定从最后一段输出。根据不同的数据流动模式，人们可以用同一条流水线求得不同功能的值。
并行计算机发展简述
40 年代开始的现代计算机发展历程可以分为两个明显的发展时代：串行计算时代、并行计算时代。每一个计算时代都从体系结构发展开始，接着是系统软件（特别是编译器与操作系统）、应用软件，最后随着问题求解环境的发展而达到顶峰。创建和使用并行计算机的主要原因是因为并行计算机是解决单处理器速度瓶颈的最好方法之一。
并行计算机是由一组处理单元组成的，这组处理单元通过相互之间的通信与协作，以更快的速度共同完成一项大规模的计算任务。因此，并行计算机的两个最主要的组成部分是计算节点和节点间的通信与协作机制。并行计算机体系结构的发展也主要体现在计算节点性能的提高以及节点间通信技术的改进两方面。
60 年代初期，由于晶体管以及磁芯存储器的出现，处理单元变得越来越小，存储器也更加小巧和廉价。这些技术发展的结果导致了并行计算机的出现，这一时期的并行计算机多是规模不大的共享存储多处理器系统，即所谓大型主机（Mainframe）。IBM360 是这一时期的典型代表。
到了60 年代末期，同一个处理器开始设置多个功能相同的功能单元，流水线技术也出现了。与单纯提高时钟频率相比，这些并行特性在处理器内部的应用大大提高了并行计算机系统的性能。伊利诺依大学和Burroughs 公司此时开始实施IlliacIV 计划，研制一台64 个CPU 的SIMD 主机系统，它涉及到硬件技术、体系结构、I/O 设备、操作系统、程序设计语言直至应用程序在内的众多研究课题。不过，当一台规模大大缩小了的16CPU 系统终于在1975 年面世时，整个计算机界已经发生了巨大变化。
首先是存储系统概念的革新，提出虚拟存储和缓存的思想。IBM360/85 系统与360/91是属于同一系列的两个机型，360/91 的主频高于360/85，所选用的内存速度也较快，并且采用了动态调度的指令流水线；但是，360/85 的整体性能却高于360/91，唯一的原因就是前者采用了缓存技术，而后者则没有。
其次是半导体存储器开始代替磁芯存储器。最初，半导体存储器只是在某些机器被用作缓存，而CDC7600 则率先全面采用这种体积更小、速度更快、可以直接寻址的半导体存储器，磁芯存储器从此退出了历史舞台。与此同时，集成电路也出现了，并迅速应用到了计算机中。元器件技术的这两大革命性突破，使得IlliacIV 的设计者们在底层硬件以及并行体系结构方面提出的种种改进都大为逊色。
1976 年CRAY-1 问世以后，向量计算机从此牢牢地控制着整个高性能计算机市场15 年。CRAY-1 对所使用的逻辑电路进行了精心的设计，采用了我们如今称为RISC 的精简指令集，还引入了向量寄存器，以完成向量运算。这一系列全新技术手段的使用，使CRAY-1 的主频达到了80MHz。
微处理器随着机器的字长从4 位、8 位、16 位一直增加到32 位，其性能也随之显着提高。正是因为看到了微处理器的这种潜力，卡内基- 梅隆大学开始在当时流行的DECPDP11 小型计算机的基础上研制成功一台由16 个PDP11/40 处理机通过交叉开关与16 个共享存储器模块相连接而成的共享存储多处理器系统C.mmp。
从80 年代开始，微处理器技术一直在高速前进。稍后又出现了非常适合于SMP 方式的总线协议，而伯克利加州大学则对总线协议进行了扩展，提出了Cache 一致性问题的处理方案。从此，C.mmp 开创出的共享存储多处理器之路越走越宽；现在，这种体系结构已经基本上统治了服务器和桌面工作站市场。
同一时期，基于消息传递机制的并行计算机也开始不断涌现。80 年代中期，加州理工成功地将64 个i8086/i8087 处理器通过超立方体互连结构连结起来。此后，便先后出现了Intel iPSC 系列、INMOS Transputer 系列，Intel Paragon 以及IBM SP 的前身Vulcan 等基于消息传递机制的并行计算机。
80 年代末到90 年代初，共享存储器方式的大规模并行计算机又获得了新的发展。IBM将大量早期RISC 微处理器通过蝶形互连网络连结起来。人们开始考虑如何才能在实现共享存储器缓存一致的同时，使系统具有一定的可扩展性（Scalability）。90 年代初期，斯坦福大学提出了DASH 计划，它通过维护一个保存有每一缓存块位置信息的目录结构来实现分布式共享存储器的缓存一致性。后来，IEEE 在此基础上提出了缓存一致性协议的标准。
90 年代以来，主要的几种体系结构开始走向融合。属于数据并行类型的CM-5 除大量采用商品化的微处理器以外，也允许用户层的程序传递一些简单的消息；CRAY T3D是一台NUMA 结构的共享存储型并行计算机，但是它也提供了全局同步机制、消息队列机制，并采取了一些减少消息传递延迟的技术。
随着商品化微处理器、网络设备的发展，以及MPI/PVM 等并行编程标准的发布，机群架构的并行计算机出现。IBM SP2 系列机群系统就是其中的典型代表。在这些系统中，各个节点采用的都是标准的商品化计算机，它们之间通过高速网络连接起来。
今天，越来越多的并行计算机系统采用商品化的微处理器加上商品化的互连网络构造，这种分布存储的并行计算机系统称为机群。国内几乎所有的高性能计算机厂商都生产这种具有极高性能价格比的高性能计算机，并行计算机就进入了一个新的时代，并行计算的应用达到了前所未有的广度和深度。
并行计算机随着微处理芯片的发展，已经进入了一个新时代。目前并行计算机的性能已经突破20PFLOPS，正在向百亿亿次发展。我国并行计算机的研制已经走在世界前列。2003年由联想公司生产的深腾6800 在2003 年11 月世界TOP500 排名中位列第14 名，2004 年曙光公司生产的曙光4000A 在2004 年6 月的世界TOP500 排名中位列第10 名，这是我国公开发布的高性能计算机在世界TOP500 中首次进入前十名，这标志着我国在并行计算机系统的研制和生产中已经赶上了国际先进水平，为提高我国的科学研究水平奠定了物质基础。2013年国际超级计算机大会最新发布的世界超级计算机500强排名中，国防科技大学研制的天河二号超级计算机系统，以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居榜首。
从TOP500 的前10 名来看，美国仍然是超级计算机的最大拥有者。按照世界TOP500 的统计数据来分析，美国在计算能力上占有近全世界的一半，在TOP500 中的所有计算机中拥有的数量超过50%。

㈥ “编译”与“编译器”是什么意思

编译是动词
编译器是名词
编译(compilation , compile)
1、利用编译程序从源语言编写的源程序产生目标程序的过程。
2、用编译程序产生目标程序的动作。

编译就是把高级语言变成计算机可以识别的2进制语言，计算机只认识1和0，编译程序把人们熟悉的语言换成2进制的。
编译程序把一个源程序翻译成目标程序的工作过程分为五个阶段：词法分析；语法分析；中间代码生成；代码优化；目标代码生成。主要是进行词法分析和语法分析，又称为源程序分析，分析过程中发现有语法错误，给出提示信息。
（1）词法分析
词法分析的任务是对由字符组成的单词进行处理，从左至右逐个字符地对源程序进行扫描，产生一个个的单词符号，把作为字符串的源程序改造成为单词符号串的中间程序。执行词法分析的程序称为词法分析程序或扫描器。
源程序中的单词符号经扫描器分析，一般产生二元式：单词种别；单词自身的值。单词种别通常用整数编码，如果一个种别只含一个单词符号，那么对这个单词符号，种别编码就完全代表它自身的值了。若一个种别含有许多个单词符号，那么，对于它的每个单词符号，除了给出种别编码以外，还应给出自身的值。
词法分析器一般来说有两种方法构造：手工构造和自动生成。手工构造可使用状态图进行工作，自动生成使用确定的有限自动机来实现。
（2）语法分析
编译程序的语法分析器以单词符号作为输入，分析单词符号串是否形成符合语法规则的语法单位，如表达式、赋值、循环等，最后看是否构成一个符合要求的程序，按该语言使用的语法规则分析检查每条语句是否有正确的逻辑结构，程序是最终的一个语法单位。编译程序的语法规则可用上下文无关文法来刻画。
语法分析的方法分为两种：自上而下分析法和自下而上分析法。自上而下就是从文法的开始符号出发，向下推导，推出句子。而自下而上分析法采用的是移进归约法，基本思想是：用一个寄存符号的先进后出栈，把输入符号一个一个地移进栈里，当栈顶形成某个产生式的一个候选式时，即把栈顶的这一部分归约成该产生式的左邻符号。
（3）中间代码生成
中间代码是源程序的一种内部表示，或称中间语言。中间代码的作用是可使编译程序的结构在逻辑上更为简单明确，特别是可使目标代码的优化比较容易实现。中间代码即为中间语言程序，中间语言的复杂性介于源程序语言和机器语言之间。中间语言有多种形式，常见的有逆波兰记号、四元式、三元式和树。
（4）代码优化
代码优化是指对程序进行多种等价变换，使得从变换后的程序出发，能生成更有效的目标代码。所谓等价，是指不改变程序的运行结果。所谓有效，主要指目标代码运行时间较短，以及占用的存储空间较小。这种变换称为优化。
有两类优化：一类是对语法分析后的中间代码进行优化，它不依赖于具体的计算机；另一类是在生成目标代码时进行的，它在很大程度上依赖于具体的计算机。对于前一类优化，根据它所涉及的程序范围可分为局部优化、循环优化和全局优化三个不同的级别。
（5）目标代码生成
目标代码生成是编译的最后一个阶段。目标代码生成器把语法分析后或优化后的中间代码变换成目标代码。目标代码有三种形式：
① 可以立即执行的机器语言代码，所有地址都重定位；
② 待装配的机器语言模块，当需要执行时，由连接装入程序把它们和某些运行程序连接起来，转换成能执行的机器语言代码；
③ 汇编语言代码，须经过汇编程序汇编后，成为可执行的机器语言代码。
目标代码生成阶段应考虑直接影响到目标代码速度的三个问题：一是如何生成较短的目标代码；二是如何充分利用计算机中的寄存器，减少目标代码访问存储单元的次数；三是如何充分利用计算机指令系统的特点，以提高目标代码的质量。
编译器，是将便于人编写，阅读，维护的高级计算机语言翻译为计算机能解读、运行的低阶机器语言的程序。编译器将原始程序（Source program）作为输入，翻译产生使用目标语言（Target language）的等价程序。源代码一般为高阶语言 (High-level language), 如 Pascal、C++、Java 等，而目标语言则是汇编语言或目标机器的目标代码（Object code），有时也称作机器代码（Machine code）。
一个现代编译器的主要工作流程如下：
源代码 (source code) → 预处理器 (preprocessor) → 编译器 (compiler) → 汇编程序 (assembler) → 目标代码 (object code) → 连接器 (Linker) → 可执行程序 (executables)

工作原理
[编辑本段]

编译是从源代码（通常为高阶语言）到能直接被计算机或虚拟机执行的目标代码（通常为低阶语言或机器语言）的翻译过程。然而，也存在从低阶语言到高阶语言的编译器，这类编译器中用来从由高阶语言生成的低阶语言代码重新生成高阶语言代码的又被叫做反编译器。也有从一种高阶语言生成另一种高阶语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。
典型的编译器输出是由包含入口点的名字和地址, 以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的可执行程序。

编译器种类
[编辑本段]

编译器可以生成用来在与编译器本身所在的计算机和操作系统（平台）相同的环境下运行的目标代码，这种编译器又叫做“本地”编译器。另外，编译器也可以生成用来在其它平台上运行的目标代码，这种编译器又叫做交叉编译器。交叉编译器在生成新的硬件平台时非常有用。“源码到源码编译器”是指用一种高阶语言作为输入，输出也是高阶语言的编译器。例如: 自动并行化编译器经常采用一种高阶语言作为输入，转换其中的代码，并用并行代码注释对它进行注释（如OpenMP）或者用语言构造进行注释（如FORTRAN的DOALL指令）。

预处理器（preprocessor）

作用是通过代入预定义等程序段将源程序补充完整。

编译器前端（frontend）

前端主要负责解析（parse）输入的源代码，由语法分析器和语意分析器协同工作。语法分析器负责把源代码中的‘单词’（Token）找出来,语意分析器把这些分散的单词按预先定义好的语法组装成有意义的表达式，语句，函数等等。例如“a = b + c;”前端语法分析器看到的是“a, =, b , +, c;”，语意分析器按定义的语法，先把他们组装成表达式“b + c”，再组装成“a = b + c”的语句。前端还负责语义（semantic checking）的检查，例如检测参与运算的变量是否是同一类型的，简单的错误处理。最终的结果常常是一个抽象的语法树（abstract syntax tree，或 AST），这样后端可以在此基础上进一步优化，处理。

编译器后端（backend）

编译器后端主要负责分析，优化中间代码（Intermediate representation）以及生成机器代码（Code Generation）。

一般说来所有的编译器分析，优化，变型都可以分成两大类：函数内（intraproceral）还是函数之间（interproceral）进行。很明显，函数间的分析，优化更准确，但需要更长的时间来完成。

编译器分析（compiler analysis）的对象是前端生成并传递过来的中间代码，现代的优化型编译器（optimizing compiler）常常用好几种层次的中间代码来表示程序，高层的中间代码（high level IR）接近输入的源代码的格式，与输入语言相关（language dependent），包含更多的全局性的信息，和源代码的结构；中层的中间代码（middle level IR）与输入语言无关，低层的中间代码(Low level IR)与机器语言类似。不同的分析，优化发生在最适合的那一层中间代码上。

常见的编译分析有函数调用树（call tree），控制流程图（Control flow graph），以及在此基础上的变量定义－使用，使用－定义链（define-use/use-define or u-d/d-u chain），变量别名分析（alias analysis），指针分析（pointer analysis），数据依赖分析（data dependence analysis）等等。

上述的程序分析结果是编译器优化（compiler optimization）和程序变形（compiler transformation）的前提条件。常见的优化和变新有：函数内嵌（inlining），无用代码删除（Dead code elimination），标准化循环结构（loop normalization），循环体展开（loop unrolling），循环体合并，分裂（loop fusion，loop fission），数组填充（array padding），等等。优化和变形的目标是减少代码的长度，提高内存（memory），缓存（cache）的使用率，减少读写磁盘，访问网络数据的频率。更高级的优化甚至可以把序列化的代码（serial code）变成并行运算，多线程的代码（parallelized，multi-threaded code）。

机器代码的生成是优化变型后的中间代码转换成机器指令的过程。现代编译器主要采用生成汇编代码（assembly code）的策略，而不直接生成二进制的目标代码（binary object code）。即使在代码生成阶段，高级编译器仍然要做很多分析，优化，变形的工作。例如如何分配寄存器（register allocatioin），如何选择合适的机器指令（instruction selection），如何合并几句代码成一句等等。

编译语言与直译语言对比
[编辑本段]

许多人将高阶程序语言分为两类: 编译型语言和直译型语言。然而，实际上，这些语言中的大多数既可用编译型实现也可用直译型实现，分类实际上反映的是那种语言常见的实现方式。（但是，某些直译型语言，很难用编译型实现。比如那些允许在线代码更改的直译型语言。）

历史
[编辑本段]

上世纪50年代，IBM的John Backus带领一个研究小组对FORTRAN语言及其编译器进行开发。但由于当时人们对编译理论了解不多，开发工作变得既复杂又艰苦。与此同时，Noam Chomsky开始了他对自然语言结构的研究。他的发现最终使得编译器的结构异常简单，甚至还带有了一些自动化。Chomsky的研究导致了根据语言文法的难易程度以及识别它们所需要的算法来对语言分类。正如现在所称的Chomsky架构（Chomsky Hierarchy），它包括了文法的四个层次：0型文法、1型文法、2型文法和3型文法，且其中的每一个都是其前者的特殊情况。2型文法（或上下文无关文法）被证明是程序设计语言中最有用的，而且今天它已代表着程序设计语言结构的标准方式。分析问题（parsing problem，用于上下文无关文法识别的有效算法）的研究是在60年代和70年代，它相当完善的解决了这个问题。现在它已是编译原理中的一个标准部分。

有限状态自动机（Finite Automaton）和正则表达式（Regular Expression）同上下文无关文法紧密相关，它们与Chomsky的3型文法相对应。对它们的研究与Chomsky的研究几乎同时开始，并且引出了表示程序设计语言的单词的符号方式。

人们接着又深化了生成有效目标代码的方法，这就是最初的编译器，它们被一直使用至今。人们通常将其称为优化技术（Optimization Technique），但因其从未真正地得到过被优化了的目标代码而仅仅改进了它的有效性，因此实际上应称作代码改进技术（Code Improvement Technique）。

当分析问题变得好懂起来时，人们就在开发程序上花费了很大的功夫来研究这一部分的编译器自动构造。这些程序最初被称为编译器的编译器（Compiler-compiler），但更确切地应称为分析程序生成器（Parser Generator），这是因为它们仅仅能够自动处理编译的一部分。这些程序中最着名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年为Unix系统编写的。类似的，有限状态自动机的研究也发展了一种称为扫描程序生成器（Scanner Generator）的工具，Lex（与Yacc同时，由Mike Lesk为Unix系统开发）是这其中的佼佼者。

在70年代后期和80年代早期，大量的项目都贯注于编译器其它部分的生成自动化，这其中就包括了代码生成。这些尝试并未取得多少成功，这大概是因为操作太复杂而人们又对其不甚了解。

编译器设计最近的发展包括：首先，编译器包括了更加复杂算法的应用程序它用于推断或简化程序中的信息；这又与更为复杂的程序设计语言的发展结合在一起。其中典型的有用于函数语言编译的Hindley-Milner类型检查的统一算法。其次，编译器已越来越成为基于窗口的交互开发环境（Interactive Development Environment，IDE）的一部分，它包括了编辑器、连接程序、调试程序以及项目管理程序。这样的IDE标准并没有多少，但是对标准的窗口环境进行开发已成为方向。另一方面，尽管近年来在编译原理领域进行了大量的研究，但是基本的编译器设计原理在近20年中都没有多大的改变，它现在正迅速地成为计算机科学课程中的中心环节。

在九十年代，作为GNU项目或其它开放源代码项目标一部分，许多免费编译器和编译器开发工具被开发出来。这些工具可用来编译所有的计算机程序语言。它们中的一些项目被认为是高质量的，而且对现代编译理论感兴趣的人可以很容易的得到它们的免费源代码。

大约在1999年，SGI公布了他们的一个工业化的并行化优化编译器Pro64的源代码，后被全世界多个编译器研究小组用来做研究平台，并命名为Open64。Open64的设计结构好，分析优化全面，是编译器高级研究的理想平台。

㈦计算机的体系结构,组成和实现各自处理哪些方面的问题

计算机体系结构（ComputerArchitecture）是程序员所看到的计算机的属性，即概念性结构与功能特性。按照计算机系统的多级层次结构，不同级程序员所看到的计算机具有不同的属性。一般来说，低级机器的属性对于高层机器程序员基本是透明的，通常所说的计算机体系结构主要指机器语言级机器的系统结构。经典的关于“计算机体系结构（computerarchitecture）”的定义是1964年C.M.Amdahl在介绍IBM360系统时提出的，其具体描述为“计算机体系结构是程序员所看到的计算机的属性，即概念性结构与功能特性” 。

计算机体系结构
2基本概念编辑
计算机体系结构就是指适当地组织在一起的一系列系统元素的集合，这些系统元素互相配合、相互协作，通过对信息的处理而完成预先定义的目标。通常包含的系统元素有：计算机软件、计算机硬件、人员、数据库、文档和过程。其中，软件是程序、数据库和相关文档的集合，用于实现所需要的逻辑方法、过程或控制；硬件是提供计算能力的电子设备和提供外部世界功能的电子机械设备(例如传感器、马达、水泵等)；人员是硬件和软件的用户和操作者；数据库是通过软件访问的大型的、有组织的信息集合；文档是描述系统使用方法的手册、表格、图形及其他描述性信息；过程是一系列步骤，它们定义了每个系统元素的特定使用方法或系统驻留的过程性语境。

计算机体系结构
38种属性编辑
1·机内数据表示：硬件能直接辨识和操作的数据类型和格式

计算机体系结构
2·寻址方式：最小可寻址单位、寻址方式的种类、地址运算
3·寄存器组织：操作寄存器、变址寄存器、控制寄存器及专用寄存器的定义、数量和使用规则
4·指令系统：机器指令的操作类型、格式、指令间排序和控制机构
5·存储系统：最小编址单位、编址方式、主存容量、最大可编址空间
6·中断机构：中断类型、中断级别，以及中断响应方式等
7·输入输出结构：输入输出的连接方式、处理机/存储器与输入输出设备间的数据交换方式、数据交换过程的控制
8·信息保护：信息保护方式、硬件信息保护机制。
4发展历程编辑
计算机系统已经经历了四个不同的发展阶段。

计算机体系结构
第一阶段
60年代中期以前，是计算机系统发展的早期时代。在这个时期通用硬件已经相当普遍，软件却是为每个具体应用而专门编写的，大多数人认为软件开发是无需预先计划的事情。这时的软件实际上就是规模较小的程序，程序的编写者和使用者往往是同一个(或同一组)人。由于规模小，程序编写起来相当容易，也没有什么系统化的方法，对软件开发工作更没有进行任何管理。这种个体化的软件环境，使得软件设计往往只是在人们头脑中隐含进行的一个模糊过程，除了程序清单之外，根本没有其他文档资料保存下来。
第二阶段
从60年代中期到70年代中期，是计算机系统发展的第二代。在这10年中计算机技术有了很大进步。多道程序、多用户系统引入了人机交互的新概念，开创了计算机应用的新境界，使硬件和软件的配合上了一个新的层次。实时系统能够从多个信息源收集、分析和转换数据，从而使得进程控制能以毫秒而不是分钟来进行。在线存储技术的进步导致了第一代数据库管理系统的出现。计算机系统发展的第二代的一个重要特征是出现了“软件作坊”，广泛使用产品软件。但是，“软件作坊”基本上仍然沿用早期形成的个体化软件开发方法。随着计算机应用的日益普及，软件数量急剧膨胀。在程序运行时发现的错误必须设法改正；用户有了新的需求时必须相应地修改程序；硬件或操作系统更新时，通常需要修改程序以适应新的环境。上述种种软件维护工作，以令人吃惊的比例耗费资源。更严重的是，许多程序的个体化特性使得它们最终成为不可维护的。“软件危机”就这样开始出现了。1968年北大西洋公约组织的计算机科学家在联邦德国召开国际会议，讨论软件危机课题，在这次会议上正式提出并使用了“软件工程”这个名词，一门新兴的工程学科就此诞生了。
第三阶段
计算机系统发展的第三代从20世纪70年代中期开始，并且跨越了整整10年。在这10年中计算机技术又有了很大进步。分布式系统极大地增加亍计算机系统的复杂性，局域网、广域网、宽带数字通信以及对“即时”数据访问需求的增加，都对软件开发者提出了更高的要求。但是，在这个时期软件仍然主要在工业界和学术界应用，个人应用还很少。这个时期的主要特点是出现了微处理器，而且微处理器获得了广泛应用。以微处理器为核心的“智能”产品随处可见，当然，最重要的智能产品是个人计算机。在不到10年的时间里，个人计算机已经成为大众化的商品。
在计算机系统发展的第四代已经不再看重单台计算机和程序，人们感受到的是硬件和软件的综合效果。由复杂操作系统控制的强大的桌面机及局域网和广域网，与先进的应用软件相配合，已经成为当前的主流。计算机体系结构已迅速地从集中的主机环境转变成分布的客户机/服务器(或浏览器/服务器)环境。世界范围的信息网为人们进行广泛交流和资源的充分共享提供了条件。软件产业在世界经济中已经占有举足轻重的地位。随着时代的前进，新的技术也不断地涌现出来。面向对象技术已经在许多领域迅速地取代了传统的软件开发方法。
总结
软件开发的“第四代技术”改变了软件界开发计算机程序的方式。专家系统和人工智能软件终于从实验室中走出来进入了实际应用，解决了大量实际问题。应用模糊逻辑的人工神经网络软件，展现了模式识别与拟人信息处理的美好前景。虚拟现实技术与多媒体系统，使得与用户的通信可以采用和以前完全不同的方法。遗传算法使我们有可能开发出驻留在大型并行生物计算机上的软件。
5基本原理编辑
计算机体系结构解决的是计算机系统在总体上、功能上需要解决的问题，它和计算机组成、计算机实现是不同的概念。一种体系结构可能有多种组成，一种组成也可能有多种物理实现。

计算机系统结构的逻辑实现，包括机器内部数据流和控制流的组成以及逻辑设计等。其目标是合理地把各种部件、设备组成计算机，以实现特定的系统结构，同时满足所希望达到的性能价格比。一般而言，计算机组成研究的范围包括：确定数据通路的宽度、确定各种操作对功能部件的共享程度、确定专用的功能部件、确定功能部件的并行度、设计缓冲和排队策略、设计控制机构和确定采用何种可靠技术等。计算机组成的物理实现。包括处理机、主存等部件的物理结构，器件的集成度和速度，器件、模块、插件、底板的划分与连接，专用器件的设计，信号传输技术，电源、冷却及装配等技术以及相关的制造工艺和技术。
6分类编辑
Flynn分类法
1966年，Michael.J.Flynn提出根据指令流、数据流的多倍性（multiplicity）特征对计算机系统进行分类，定义如下。
·指令流：机器执行的指令序列

计算机体系结构
·数据流：由指令流调用的数据序列，包括输入数据和中间结果
·多倍性：在系统性能瓶颈部件上同时处于同一执行阶段的指令或数据的最大可能个数。
Flynn根据不同的指令流-数据流组织方式把计算机系统分为4类。
1·单指令流单数据流（，SISD）
SISD其实就是传统的顺序执行的单处理器计算机，其指令部件每次只对一条指令进行译码，并只对一个操作部件分配数据。
2·单指令流多数据流（，SIMD）
SIMD以并行处理机为代表，结构如图，并行处理机包括多个重复的处理单元PU1～PUn，由单一指令部件控制，按照同一指令流的要求为它们分配各自所需的不同的数据。
3·多指令流单数据流（，MISD）
MISD的结构，它具有n个处理单元，按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。一个处理单元的输出又作为另一个处理单元的输入。
4·多指令流多数据流（，MIMD）
MIMD的结构，它是指能实现作业、任务、指令等各级全面并行的多机系统，多处理机就属于MIMD。（2）
冯式分类法
1972年冯泽云提出用最大并行度来对计算机体系结构进行分类。所谓最大并行度Pm是指计算机系统在单位时间内能够处理的最大的二进制位数。设每一个时钟周期△ti内能处理的二进制位数为Pi，则T个时钟周期内平均并行度为Pa=(∑Pi)/T(其中i为1，2，…，T)。平均并行度取决于系统的运行程度，与应用程序无关，所以，系统在周期T内的平均利用率为μ=Pa/Pm=(∑Pi)/(T*Pm)。用最大并行度对计算机体系结构进行的分类。用平面直角坐标系中的一点表示一个计算机系统，横坐标表示字宽(N位)，即在一个字中同时处理的二进制位数；纵坐标表示位片宽度(M位)，即在一个位片中能同时处理的字数，则最大并行度Pm=N*M。
由此得出四种不同的计算机结构：
①字串行、位串行(简称WSBS)。其中N=1，M=1。
②字并行、位串行(简称WPBS)。其中N=1，M>1。
③字串行、位并行(简称WSBP)。其中N>1，M=1。
④字并行、位并行(简称WPBP)。其中N>1，M>1。
7技术革新编辑
计算机体系结构以图灵机理论为基础，属于冯·诺依曼体系结构。本质上，图灵机理论和冯·诺依曼体系结构是一维串行的，而多核处理器则属于分布式离散的并行结构，需要解决二者的不匹配问题。
首先，串行的图灵机模型和物理上分布实现的多核处理器的匹配问题。图灵机模型意味着串行的编程模型。串行程序很难利用物理上分布实现的多个处理器核获得性能加速.与此同时,并行编程模型并没有获得很好的推广，仅仅局限在科学计算等有限的领域.研究者应该寻求合适的机制来实现串行的图灵机模型和物理上分布实现的多核处理器的匹配问题或缩小二者之间的差距，解决“并行程序编程困难，串行程序加速小”的问题。

计算机体系结构
在支持多线程并行应用方面，未来多核处理器应该从如下两个方向加以考虑。第一是引入新的能够更好的能够表示并行性的编程模型。由于新的编程模型支持编程者明确表示程序的并行性，因此可以极大的提升性能。比如Cell处理器提供不同的编程模型用于支持不同的应用。其难点在于如何有效推广该编程模型以及如何解决兼容性的问题。第二类方向是提供更好的硬件支持以减少并行编程的复杂性。并行程序往往需要利用锁机制实现对临界资源的同步、互斥操作，编程者必须慎重确定加锁的位置，因为保守的加锁策略限制了程序的性能，而精确的加锁策略大大增加了编程的复杂度。一些研究在此方面做了有效的探索。比如，SpeculativeLockElision机制允许在没有冲突的情况下忽略程序执行的锁操作，因而在降低编程复杂度的同时兼顾了并行程序执行的性能。这样的机制使得编程者集中精力考虑程序的正确性问题，而无须过多地考虑程序的执行性能。更激进的，(TCC)机制以多个访存操作（Transaction）为单位考虑数据一致性问题，进一步简化了并行编程的复杂度。
主流的商业多核处理器主要针对并行应用，如何利用多核加速串行程序仍然是一个值得关注的问题。其关键技术在于利用软件或硬件自动地从串新程序中派生出能够在多核处理器上并行执行的代码或线程。多核加速串行程序主要有三种方法，包括并行编译器、推测多线程以及基于线程的预取机制等。在传统并行编译中，编译器需要花费很大的精力来保证拟划分线程之间不存在数据依赖关系。编译时存在大量模糊依赖，尤其是在允许使用指针（如C程序）的情况下，编译器不得不采用保守策略来保证程序执行的正确性。这大大限制了串行程序可以挖掘的并发程度，也决定了并行编译器只能在狭窄范围使用。为解决这些问题，人们提出推测多线程以及基于线程的预取机制等。然而，从这种概念提出到现在为止，这个方向的研究大部分局限于学术界，仅有个别商业化处理器应用了这种技术，并且仅仅局限于特殊的应用领域。我们认为动态优化技术和推测多线程（包括基于线程的预取机制）的结合是未来的可能发展趋势。
冯·诺依曼体系结构的一维地址空间和多核处理器的多维访存层次的匹配问题。本质上，冯·诺依曼体系结构采用了一维地址空间。由于不均匀的数据访问延迟和同一数据在多个处理器核上的不同拷贝导致了数据一致性问题。该领域的研究分为两大类：一类研究主要是引入新的访存层次。新的访存层次可能采用一维分布式实现方式。典型的例子是增加分布式统一编址的寄存器网络。全局统一编址的特性避免了数据一致性地考虑。同时，相比于传统的大容量cache访问，寄存器又能提供更快的访问速度。TRIPS和RAW都有实现了类似得寄存器网络。另外，新的访存层次也可以是私有的形式。比如每个处理器和都有自己私有的访存空间。其好处是更好的划分了数据存储空间，已洗局部私有数据没有必要考虑数据一致性问题。比如Cell处理器为每个SPE核设置了私有的数据缓冲区。另一类研究主要涉及研制新的cache一致性协议。其重要趋势是放松正确性和性能的关系。比如推测Cache协议在数据一致性未得到确认之前就推测执行相关指令，从而减少了长迟访存操作对流水线的影响。此外，TokenCoherence和TCC也采用了类似的思想。程序的多样性和单一的体系结构的匹配问题。未来的应用展现出多样性的特点。一方面，处理器的评估不仅仅局限于性能，也包括可靠性，安全性等其他指标。另一方面，即便考虑仅仅追求性能的提高，不同的应用程序也蕴含了不同层次的并行性。应用的多样性驱使未来的处理器具有可配置、灵活的体系结构。TRIPS在这方面作了富有成效的探索，比如其处理器核和片上存储系统均有可配置的能力，从而使得TRIPS能够同时挖掘指令级并行性、数据级并行性及指令级并行性。
多核和Cell等新型处理结构的出现不仅是处理器架构历史上具有里程碑式的事件，对传统以来的计算模式和计算机体系架构也是一种颠覆
2005年，一系列具有深远影响的计算机体系结构被曝光，有可能为未来十年的计算机体系结构奠定根本性的基础，至少为处理器乃至整个计算机体系结构做出了象征性指引。随着计算密度的提高，处理器和计算机性能的衡量标准和方式在发生变化，从应用的角度讲，讲究移动和偏向性能两者已经找到了最令人满意的结合点，并且有可能引爆手持设备的急剧膨胀。尽管现在手持设备也相对普及，在计算能力、可扩展性以及能耗上，完全起到了一台手持设备应该具备的作用；另一方面，讲究性能的服务器端和桌面端，开始考虑减少电力消耗赶上节约型社会的大潮流。
Cell本身适应这种变化，同样也是它自己创造了这种变化。因而从它开始就强调了不一样的设计风格，除了能够很好地进行多倍扩展外，处理器内部的SPU(SynergisticProcessorUnit协同处理单元)具有很好的扩展性，因而可以同时面对通用和专用的处理，实现处理资源的灵活重构。也就意味着，通过适当的软件控制，Cell能应付多种类型的处理任务，同时还能够精简设计的复杂。

㈧ android系统编译能用分布式编译吗

项目越来越大，每次需要重新编译整个项目都是一件很浪费时间的事情。Research了一下，找到以下可以帮助提高速度的方法，总结一下。
1. 使用tmpfs来代替部分IO读写
2.ccache，可以将ccache的缓存文件设置在tmpfs上，但是这样的话，每次开机后，ccache的缓存文件会丢失
3.distcc,多机器编译
4.将屏幕输出打印到内存文件或者/dev/null中，避免终端设备（慢速设备）拖慢速度。

tmpfs
有人说在Windows下用了RAMDisk把一个项目编译时间从4.5小时减少到了5分钟，也许这个数字是有点夸张了，不过粗想想，把文件放到内存上做编译应该是比在磁盘上快多了吧，尤其如果编译器需要生成很多临时文件的话。
这个做法的实现成本最低，在Linux中，直接mount一个tmpfs就可以了。而且对所编译的工程没有任何要求，也不用改动编译环境。
mount -t tmpfs tmpfs ~/build -o size=1G
用2.6.32.2的Linux Kernel来测试一下编译速度：
用物理磁盘：40分16秒
用tmpfs：39分56秒
呃……没什么变化。看来编译慢很大程度上瓶颈并不在IO上面。但对于一个实际项目来说，编译过程中可能还会有打包等IO密集的操作，所以只要可能，用tmpfs是有益无害的。当然对于大项目来说，你需要有足够的内存才能负担得起这个tmpfs的开销。
make -j
既然IO不是瓶颈，那CPU就应该是一个影响编译速度的重要因素了。
用make -j带一个参数，可以把项目在进行并行编译，比如在一台双核的机器上，完全可以用make -j4，让make最多允许4个编译命令同时执行，这样可以更有效的利用CPU资源。
还是用Kernel来测试：
用make： 40分16秒
用make -j4：23分16秒
用make -j8：22分59秒
由此看来，在多核CPU上，适当的进行并行编译还是可以明显提高编译速度的。但并行的任务不宜太多，一般是以CPU的核心数目的两倍为宜。
不过这个方案不是完全没有cost的，如果项目的Makefile不规范，没有正确的设置好依赖关系，并行编译的结果就是编译不能正常进行。如果依赖关系设置过于保守，则可能本身编译的可并行度就下降了，也不能取得最佳的效果。
ccache
ccache工作原理：
ccache也是一个编译器驱动器。第一趟编译时ccache缓存了GCC的“-E”输出、编译选项以及.o文件到$HOME/.ccache。第二次编译时尽量利用缓存，必要时更新缓存。所以即使"make clean; make"也能从中获得好处。ccache是经过仔细编写的，确保了与直接使用GCC获得完全相同的输出。

ccache用于把编译的中间结果进行缓存，以便在再次编译的时候可以节省时间。这对于玩Kernel来说实在是再好不过了，因为经常需要修改一些Kernel的代码，然后再重新编译，而这两次编译大部分东西可能都没有发生变化。对于平时开发项目来说，也是一样。为什么不是直接用make所支持的增量编译呢？还是因为现实中，因为Makefile的不规范，很可能这种“聪明”的方案根本不能正常工作，只有每次make clean再make才行。
安装完ccache后，可以在/usr/local/bin下建立gcc，g++，c++，cc的symbolic link，链到/usr/bin/ccache上。总之确认系统在调用gcc等命令时会调用到ccache就可以了（通常情况下/usr/local /bin会在PATH中排在/usr/bin前面）。
安装的另外一种方法：
vi ~/.bash_profile
把/usr/lib/ccache/bin路径加到PATH下
PATH=/usr/lib/ccache/bin:$PATH:$HOME/bin
这样每次启动g++的时候都会启动/usr/lib/ccache/bin/g++，而不会启动/usr/bin/g++
效果跟使用命令行ccache g++效果一样
这样每次用户登录时，使用g++编译器时会自动启动ccache
继续测试：
用ccache的第一次编译(make -j4)：23分38秒
用ccache的第二次编译(make -j4)：8分48秒
用ccache的第三次编译(修改若干配置，make -j4)：23分48秒

看来修改配置（我改了CPU类型...）对ccache的影响是很大的，因为基本头文件发生变化后，就导致所有缓存数据都无效了，必须重头来做。但如果只是修改一些.c文件的代码，ccache的效果还是相当明显的。而且使用ccache对项目没有特别的依赖，布署成本很低，这在日常工作中很实用。
可以用ccache -s来查看cache的使用和命中情况：
cache directory /home/lifanxi/.ccachecache hit 7165cache miss 14283called for link 71not a C/C++ file 120no input file 3045files in cache 28566cache size 81.7 Mbytesmax cache size 976.6 Mbytes
可以看到，显然只有第二编次译时cache命中了，cache miss是第一次和第三次编译带来的。两次cache占用了81.7M的磁盘，还是完全可以接受的。
distcc
一台机器的能力有限，可以联合多台电脑一起来编译。这在公司的日常开发中也是可行的，因为可能每个开发人员都有自己的开发编译环境，它们的编译器版本一般是一致的，公司的网络也通常具有较好的性能。这时就是distcc大显身手的时候了。
使用distcc，并不像想象中那样要求每台电脑都具有完全一致的环境，它只要求源代码可以用make -j并行编译，并且参与分布式编译的电脑系统中具有相同的编译器。因为它的原理只是把预处理好的源文件分发到多台计算机上，预处理、编译后的目标文件的链接和其它除编译以外的工作仍然是在发起编译的主控电脑上完成，所以只要求发起编译的那台机器具备一套完整的编译环境就可以了。
distcc安装后，可以启动一下它的服务：
/usr/bin/distccd --daemon --allow 10.64.0.0/16
默认的3632端口允许来自同一个网络的distcc连接。
然后设置一下DISTCC_HOSTS环境变量，设置可以参与编译的机器列表。通常localhost也参与编译，但如果可以参与编译的机器很多，则可以把localhost从这个列表中去掉，这样本机就完全只是进行预处理、分发和链接了，编译都在别的机器上完成。因为机器很多时，localhost的处理负担很重，所以它就不再“兼职”编译了。
export DISTCC_HOSTS="localhost 10.64.25.1 10.64.25.2 10.64.25.3"
然后与ccache类似把g++，gcc等常用的命令链接到/usr/bin/distcc上就可以了。
在make的时候，也必须用-j参数，一般是参数可以用所有参用编译的计算机CPU内核总数的两倍做为并行的任务数。
同样测试一下：
一台双核计算机，make -j4：23分16秒
两台双核计算机，make -j4：16分40秒
两台双核计算机，make -j8：15分49秒
跟最开始用一台双核时的23分钟相比，还是快了不少的。如果有更多的计算机加入，也可以得到更好的效果。
在编译过程中可以用distccmon-text来查看编译任务的分配情况。distcc也可以与ccache同时使用，通过设置一个环境变量就可以做到，非常方便。
总结一下：
tmpfs：解决IO瓶颈，充分利用本机内存资源
make -j：充分利用本机计算资源
distcc：利用多台计算机资源
ccache：减少重复编译相同代码的时间
这些工具的好处都在于布署的成本相对较低，综合利用这些工具，就可以轻轻松松的节省相当可观的时间。上面介绍的都是这些工具最基本的用法，更多的用法可以参考它们各自的man page。
5.还有提速方法是把屏幕输出重定向到内存文件或/dev/null,因对终端设备(慢速设备)的阻塞写操作也会拖慢速度。推荐内存文件，这样发生错误时，能够查看。

㈨编译器的发展史

编译器
编译器，是将便于人编写，阅读，维护的高级计算机语言翻译为计算机能识别，运行的低级机器语言的程序。编译器将源程序（Source program）作为输入，翻译产生使用目标语言（Target language）的等价程序。源程序一般为高级语言（High-level language），如Pascal，C++等，而目标语言则是汇编语言或目标机器的目标代码（Object code），有时也称作机器代码（Machine code）。

一个现代编译器的主要工作流程如下：

源程序（source code）→预处理器（preprocessor）→编译器（compiler）→汇编程序（assembler）→目标程序（object code）→连接器（链接器，Linker）→可执行程序（executables）
目录 [隐藏]
1 工作原理
2 编译器种类
3 预处理器（preprocessor）
4 编译器前端（frontend）
5 编译器后端（backend）
6 编译语言与解释语言对比
7 历史
8 参见

工作原理
翻译是从源代码（通常为高级语言）到能直接被计算机或虚拟机执行的目标代码（通常为低级语言或机器言）。然而，也存在从低级语言到高级语言的编译器，这类编译器中用来从由高级语言生成的低级语言代码重新生成高级语言代码的又被叫做反编译器。也有从一种高级语言生成另一种高级语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。

典型的编译器输出是由包含入口点的名字和地址以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的可执行程序。

编译器种类
编译器可以生成用来在与编译器本身所在的计算机和操作系统（平台）相同的环境下运行的目标代码，这种编译器又叫做“本地”编译器。另外，编译器也可以生成用来在其它平台上运行的目标代码，这种编译器又叫做交叉编译器。交叉编译器在生成新的硬件平台时非常有用。“源码到源码编译器”是指用一种高级语言作为输入，输出也是高级语言的编译器。例如: 自动并行化编译器经常采用一种高级语言作为输入，转换其中的代码，并用并行代码注释对它进行注释（如OpenMP）或者用语言构造进行注释（如FORTRAN的DOALL指令）。

预处理器（preprocessor）
作用是通过代入预定义等程序段将源程序补充完整。

编译器前端（frontend）
前端主要负责解析（parse）输入的源程序，由词法分析器和语法分析器协同工作。词法分析器负责把源程序中的‘单词’（Token）找出来,语法分析器把这些分散的单词按预先定义好的语法组装成有意义的表达式，语句，函数等等。例如“a = b + c;”前端词法分析器看到的是“a, =, b , +, c;”，语法分析器按定义的语法，先把他们组装成表达式“b + c”，再组装成“a = b + c”的语句。前端还负责语义（semantic checking）的检查，例如检测参与运算的变量是否是同一类型的，简单的错误处理。最终的结果常常是一个抽象的语法树（abstract syntax tree，或 AST），这样后端可以在此基础上进一步优化，处理。

编译器后端（backend）
编译器后端主要负责分析，优化中间代码（Intermediate representation）以及生成机器代码（Code Generation）。

一般说来所有的编译器分析，优化，变型都可以分成两大类：函数内（intraproceral）还是函数之间（interproceral）进行。很明显，函数间的分析，优化更准确，但需要更长的时间来完成。

编译器分析（compiler analysis）的对象是前端生成并传递过来的中间代码，现代的优化型编译器（optimizing compiler）常常用好几种层次的中间代码来表示程序，高层的中间代码（high level IR）接近输入的源程序的格式，与输入语言相关（language dependent），包含更多的全局性的信息，和源程序的结构；中层的中间代码（middle level IR）与输入语言无关，低层的中间代码(Low level IR)与机器语言类似。不同的分析，优化发生在最适合的那一层中间代码上。

常见的编译分析有函数调用树（call tree），控制流程图（Control flow graph），以及在此基础上的变量定义－使用，使用－定义链（define-use/use-define or u-d/d-u chain），变量别名分析（alias analysis），指针分析（pointer analysis），数据依赖分析（data dependence analysis）等等。

上述的程序分析结果是编译器优化（compiler optimization）和程序变形（compiler transformation）的前提条件。常见的优化和变新有：函数内嵌（inlining），无用代码删除（Dead code elimination），标准化循环结构（loop normalization），循环体展开（loop unrolling），循环体合并，分裂（loop fusion，loop fission），数组填充（array padding），等等。优化和变形的目的是减少代码的长度，提高内存（memory），缓存（cache）的使用率，减少读写磁盘，访问网络数据的频率。更高级的优化甚至可以把序列化的代码（serial code）变成并行运算，多线程的代码（parallelized，multi-threaded code）。

机器代码的生成是优化变型后的中间代码转换成机器指令的过程。现代编译器主要采用生成汇编代码（assembly code）的策略，而不直接生成二进制的目标代码（binary object code）。即使在代码生成阶段，高级编译器仍然要做很多分析，优化，变形的工作。例如如何分配寄存器（register allocatioin），如何选择合适的机器指令（instruction selection），如何合并几句代码成一句等等。

编译语言与解释语言对比
许多人将高级程序语言分为两类: 编译型语言和解释型语言。然而，实际上，这些语言中的大多数既可用编译型实现也可用解释型实现，分类实际上反映的是那种语言常见的实现方式。（但是，某些解释型语言，很难用编译型实现。比如那些允许在线代码更改的解释型语言。）

历史
上世纪50年代，IBM的John Backus带领一个研究小组对FORTRAN语言及其编译器进行开发。但由于当时人们对编译理论了解不多，开发工作变得既复杂又艰苦。与此同时，Noam Chomsky开始了他对自然语言结构的研究。他的发现最终使得编译器的结构异常简单，甚至还带有了一些自动化。Chomsky的研究导致了根据语言文法的难易程度以及识别它们所需要的算法来对语言分类。正如现在所称的Chomsky架构（Chomsky Hierarchy），它包括了文法的四个层次：0型文法、1型文法、2型文法和3型文法，且其中的每一个都是其前者的特殊情况。2型文法（或上下文无关文法）被证明是程序设计语言中最有用的，而且今天它已代表着程序设计语言结构的标准方式。分析问题（parsing problem，用于上下文无关文法识别的有效算法）的研究是在60年代和70年代，它相当完善的解决了这个问题。现在它已是编译原理中的一个标准部分。

有限状态自动机（Finite Automaton）和正则表达式（Regular Expression）同上下文无关文法紧密相关，它们与Chomsky的3型文法相对应。对它们的研究与Chomsky的研究几乎同时开始，并且引出了表示程序设计语言的单词的符号方式。

人们接着又深化了生成有效目标代码的方法，这就是最初的编译器，它们被一直使用至今。人们通常将其称为优化技术（Optimization Technique），但因其从未真正地得到过被优化了的目标代码而仅仅改进了它的有效性，因此实际上应称作代码改进技术（Code Improvement Technique）。

当分析问题变得好懂起来时，人们就在开发程序上花费了很大的功夫来研究这一部分的编译器自动构造。这些程序最初被称为编译器的编译器（Compiler-compiler），但更确切地应称为分析程序生成器（Parser Generator），这是因为它们仅仅能够自动处理编译的一部分。这些程序中最着名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年为Unix系统编写的。类似的，有限状态自动机的研究也发展了一种称为扫描程序生成器（Scanner Generator）的工具，Lex（与Yacc同时，由Mike Lesk为Unix系统开发）是这其中的佼佼者。

在70年代后期和80年代早期，大量的项目都贯注于编译器其它部分的生成自动化，这其中就包括了代码生成。这些尝试并未取得多少成功，这大概是因为操作太复杂而人们又对其不甚了解。

编译器设计最近的发展包括：首先，编译器包括了更加复杂算法的应用程序它用于推断或简化程序中的信息；这又与更为复杂的程序设计语言的发展结合在一起。其中典型的有用于函数语言编译的Hindley-Milner类型检查的统一算法。其次，编译器已越来越成为基于窗口的交互开发环境（Interactive Development Environment，IDE）的一部分，它包括了编辑器、连接程序、调试程序以及项目管理程序。这样的IDE标准并没有多少，但是对标准的窗口环境进行开发已成为方向。另一方面，尽管近年来在编译原理领域进行了大量的研究，但是基本的编译器设计原理在近20年中都没有多大的改变，它现在正迅速地成为计算机科学课程中的中心环节。

在九十年代，作为GNU项目或其它开放源代码项目的一部分，许多免费编译器和编译器开发工具被开发出来。这些工具可用来编译所有的计算机程序语言。它们中的一些项目被认为是高质量的，而且对现代编译理论感性趣的人可以很容易的得到它们的免费源代码。

大约在1999年，SGI公布了他们的一个工业化的并行化优化编译器Pro64的源代码，后被全世界多个编译器研究小组用来做研究平台，并命名为Open64。Open64的设计结构好，分析优化全面，是编译器高级研究的理想平台。

编译器是一种特殊的程序，它可以把以特定编程语言写成的程序变为机器可以运行的机器码。我们把一个程序写好，这时我们利用的环境是文本编辑器。这时我程序把程序称为源程序。在此以后程序员可以运行相应的编译器，通过指定需要编译的文件的名称就可以把相应的源文件（通过一个复杂的过程）转化为机器码了。

编译器工作方法
首先编译器进行语法分析，也就是要把那些字符串分离出来。然后进行语义分析，就是把各个由语法分析分析出的语法单元的意义搞清楚。最后生成的是目标文件，我们也称为obj文件。再经过链接器的链接就可以生成最后的可执行代码了。有些时候我们需要把多个文件产生的目标文件进行链接，产生最后的代码。我们把一过程称为交叉链接。

阅读全文

热点内容

linux安装composer 发布：2025-07-18 00:04:52 浏览：240

地址存储器的容量发布：2025-07-17 23:42:56 浏览：167

win7电脑用户名和密码在哪里查询发布：2025-07-17 23:39:44 浏览：476

安卓手机颜色怎么变色发布：2025-07-17 23:26:43 浏览：375

java离线安装发布：2025-07-17 23:23:31 浏览：377

位置服务器地址是什么发布：2025-07-17 23:18:00 浏览：841

phpif一行发布：2025-07-17 23:12:27 浏览：730

安装脚本精灵发布：2025-07-17 23:11:35 浏览：127

我的世界基岩版中国玩家的生存服务器发布：2025-07-17 23:06:34 浏览：681

显示linux隐藏文件发布：2025-07-17 23:00:24 浏览：924

并行编译架构

着名计算机科学家高光荣享年76岁逝世1

着名计算机科学家高光荣享年76岁逝世2

与并行编译架构相关的资讯