nlp用什么编译器

发布时间: 2023-03-29 00:51:40

A. 程序猿专用十大在线编译器(IDE)整理

1. CodeSandbox(基于 React 的在线代码沙盒平台) 我常用的

① 主流的脚手架都支持,比如在线create-react-app,vue-cli等(在线 fork 修改),支持 github 登录(项目导入),也支持 cli 上传例子,例子可以在线访问和下载,当然也支持内嵌到其他博客等网页中。

② 地址：https://codesandbox.io/

③ 图示

2. CodePen(前端代码编辑运行的网站)

① CodePen 是一个完全免费的前端代码托管服务，主要功能有：

② 地址：https://codepen.io/

③ 图示

3. JSRUN(支持手机端的在线JS编辑器)

① jsrun是一款支持手机端的在线JS编辑器, HTML/CSS/Javascript在线代码运行工具,js代码在线测试调试,是runjs的升级版支持vue.js/angular.js的在线编辑器

② 地址：http://jsrun.net/

③ 图示

4. jsFiddle(前端代码编辑运行的网站)

① jsFiddle 是一个Web开发人员的练习场,可在线编辑和测试 HTML、CSS、JavaScript代码片段。在 jsFiddle 编辑的代码,可以保存,也可分享给其他人,还可嵌入到其他网页

② 地址：https://jsfiddle.net/

③ 图示

5. Ideone(C和C++的在线编译和调试工具,支持其他的60种语言) 我常用

① Ideone是C和C++的在线编译和调试工具,支持其他的60种语言。这个工具提供许多强大的功能,允许程序员快速高效的编译源代码

② 地址：https://www.ideone.com/

③ 图示

6. Codechef(C，C ++和Java的在线编译工具)

① 它支持C，C ++和Java，非常接近真正的桌面IDE。这是超快速和易于使用。适合于课堂和作业的学生，练习面试问题。

② 地址：https://www.codechef.com/ide

③ 图示

7. JDoodle (C，C ++和Java的在线IDE)

① 支持协作代码。它只是从一个简单的文本区域开始，您可以粘贴代码，然后单击运行。您可以更改命令行参数并在运行该程序之前设置stdin。最适合新的在线编辑器不支持的许多旧语言。

② 地址：https://www.codechef.com/ide

③ 图示

8. OnlineGDB (在线C，C ++，Java，PHP编译器) 我常用

① 它支持C，C ++，PHP和Java编译器。OnlineGDB的独特功能是，您可以逐步调试您的代码。一旦代码被写入，它可以很容易地格式化，使其看起来不错。

② 地址：https://www.onlinegdb.com/

③ 图示

9. GCC资源管理器

① GCC编译器资源管理器是一个交互式在线编译器，它显示编译后的C++、RISE、GO（以及更多）代码的汇编输出。

② 地址：https://gcc.godbolt.org/

③ 图示

10. plnkr edit在线编辑器

① js的在线编辑器。

② 地址：http://plnkr.co/edit/

③ 图示

B. NLP第九篇-句法分析

句法分析的基本任务是确定句子的语法结构或句子中词汇之间的依存关系。句法分析不是一个自然语言处理任务的最终目标，但它往往是实现最终目标的关键环节。

句法分析分为句法结构分析和依存关系分析两种。以获取整个句子的句法结构为目的的称为完全句法分析，而以获得局部成分为目的的语法分析称为局部分析，依存关系分析简称依存分析。

一般而言，句法分析的任务有三个：

判断输出的字符串是否属于某种语言

消除输入句子中词法和结构等方面的歧义

分析输入句子的内部结构，如成分构成、上下文关系等。

第二三个任务一般是句法分析的主要任务。

一般来说，构造一个句法分析器需要考虑两部分工作：一部分是语法的形式化表示和词条信息描述问题，形式化的语法规则构成了规则库，词条信息等由词典或同义词表等提供，规则库与词典或同义词表构成了句法分析的知识库；另一部分就是基于知识库的解析算法了。

语法形式化属于句法理论研究的范畴，目前在自然语言处理中广泛使用的是上下文无关文法（CFG）和基于约束的文法，后者又称合一文法。

简单的讲，句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类。

基于规则的句法结构分析方法的基本思路是，由人工组织语法规则，建立语法知识库，通过条件约束和检查来实现句法结构歧义的消除。

根据句法分析树形成方向的区别，人们通常将这些方法划分为三种类型：自顶向下的分析方法，自底向上的分析方法和两者相结合的分析方法。自顶向下分析算法实现的是规则推导的过程，分析树从根结点开始不断生长，最后形成分析句子的叶结点。而自底向上分析算法的实现过程恰好想法，它是从句子符号串开始，执行不断规约的过程，最后形成根节点。

基于规则的语法结构分析可以利用手工编写的规则分析出输入句子所有可能的句法结构；对于特定领域和目的，利用有针对性的规则能够较好的处理句子中的部分歧义和一些超语法（extra-grammatical）现象。

但对于一个中等长度的输入句子来说，要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的，而且就算分析出来了，也难以实现有效的消歧，并选择出最有可能的分析结果；手工编写的规则带有一定的主观性，还需要考虑到泛化，在面对复杂语境时正确率难以保证；手工编写规则本身就是一件大工作量的复杂劳动，而且编写的规则领域有密切的相关性，不利于句法分析系统向其他领域移植。

基于规则的句法分析算法能够成功的处理程序设计语言的编译，而对于自然语言的处理却始终难以摆脱困境，是因为程序设计语言中使用的知识严格限制的上下文无关文法的子类，但自然语言处理系统中所使用的形式化描述方法远远超过了上下文无关文法的表达能力；而且人们在使用程序设计语言的时候，一切表达方式都必须服从机器的要求，是一个人服从机器的过程，这个过程是从语言的无限集到有限集的映射过程，而在自然语言处理中则恰恰相反，自然语言处理实现的是机器追踪和服从人的语言，从语言的有限集到无限集推演的过程。

完全语法分析

基于PCFG的基本分析方法

基于概率上下文无关文法的短语结构分析方法，可以说是目前最成功的语法驱动的统计句法分析方法，可以认为是规则方法与统计方法的结合。

PCFG是CFG的扩展，举个例子：

PCFG

当然，同一个符号不同生成式的概率之和为1。NP是名词短语、VP是动词短语、PP是介词短语。

基于PCFG的句法分析模型，满足以下三个条件：

位置不变性：子树的概率不依赖于该子树所管辖的单词在句子中的位置

上下文无关性：子树的概率不依赖于子树控制范围以外的单词

祖先无关性：子树的概率不依赖于推导出子树的祖先节点

根据上述文法，‘He met Jenny with flowers’有两种可能的语法结构：

而且我们可以通过将树中的所有概率相乘，得到两棵子树的整体概率，从中选择概率更大的子树作为最佳结构。

与HMM类似，PCFG也有三个基本问题：

给定一个句子W＝w1w2…wn和文法G，如何快速计算概率P(W|G)

给定一个句子W＝w1w2…wn和文法G，如何选择该句子的最佳结构？即选择句法结构树t使其具有最大概率

给定PCFG G和句子W＝w1w2…wn，如何调节G的概率参数，使句子的概率最大

首先是第一个问题，HMM中我们用的是前向算法和后向算法来计算观察序列O概率，相似的，这里我们用的是内向算法和外向算法来计算P(W|G) 。

首先我们定义内向变量αij(A)，与前向变量相似但又有不同，αij(A)即非终结符A推导出W中字串wiw(i+1)…wj的概率。那P(W|G)自然就等于α1n(S)了，S是起始符号，计算的就是由起始符号S推导出整个句子W=w1w2…wn的概率。

所以只要有αij(A)的递归公式就能计算出P(W|G)，递归公式如下：

根据定义，αii(A)自然就等同于符号A输出wi的概率；而αij(A)的计算思路是，这个子串wiw(i+1)…wj可以被切成两部分处理，前一部分wiw(i+1)…wk由非终结符号B生成，后一部分wkw(k+1)…wj由非终结符号C生成，而BC由A生成。这样将概率依次相乘，即可将一个大问题划分为两个小问题处理，两个小问题又可以进一步划分直到不能划分为止，然后递归回来得到结果。

这里给一张内向变量计算方法示意图：

这个问题也可以用外向算法来解决。

首先定义外向变量，βij(A)是，初始符号S在推导出语句W=w1w2…wn的过程中，产生符号串w1w2…w(i-1)Aw(j+1)…wn的概率（隐含着A会生成wiw(i+1)…wj）。也就是说βij(A)是S推导出除了以A节点为根节点的子树以外的其他部分的概率。

《统计自然语言处理（第二版）》这本书里讲错了，这里我给出我自己的理解，书里给的算法步骤如下：

很明显的错误，初始化都把结果初始化了，那这个算法还算什么，直接等于1就完了呗。

这是作者对外向变量定义理解模糊的问题，上面给了外向变量的定义，里面有一句话‘隐含着A会生成wiw(i+1)…wj’，那问题在于，A会生成wiw(i+1)…wj，这到底算是条件还是推论。

看这个算法的初始化的意思，说β1n(A)，在A=S的时候，为1，不等于S为0，意思是什么？意思就是‘隐含着A会生成wiw(i+1)…wj’这句话是条件，β1n(S)已经隐含了S生成W＝w1w2…wn了，所谓的w1w2…w(i-1)Aw(j+1)…wn也就不存在了，只剩下一个S->S了，所以概率自然为1。

但是在第三步这个地方，作者理解成什么意思了呢？作者又把‘隐含着A会生成wiw(i+1)…wj’这句话当成推论了，认为在β1n(S)，里S会生成W＝w1w2…wn是推论，那真是就正好了，要求的结果就是S生成W＝w1w2…wn，这不就结束了吗，结果就导致了这个算法第一步初始化都把结果初始化了。

那我的理解是什么呢，通过这个公式计算出来的β1n(S)，确实是正确的，意义实际上也是包含了‘隐含着A会生成wiw(i+1)…wj’这句话是推论，但是右侧式子里由于不断递归而产生的β1n(S)，是把‘隐含着A会生成wiw(i+1)…wj’这句话当条件的，所以计算上没有问题。

我倾向于为第三步中的β1n(S)加一个星号，以表明意义的不同。

书中还给了个外向变量的计算方法示意图，我觉得也是莫名其妙：

他说βij(A)是这两种情况的概率和，这我们知道j比i大，那这图里这个k既比i小又比j大，这不是搞笑吗。只能说图上这俩C就不是一个C，k也不是一个k。

那我为什么会理解成一个呢，除了字母相同，他前面还这么讲‘必定运用了形如B->AC或者B->CA的规则’、‘运用B->AC或者B->CA两种规则的情况’，这明显就是给人以顺序交换的误解。

另外，还在内向变量的使用上前后不一，可以说这本书里对外向算法的讲解是非常失败的。而且对外向算法的计算仍然需要用到内向算法的递归，那真的直接用内向算法就好了，外向算法还要多定义变量。

然后是第二个问题，选择句子的最佳结构，也即给定一个句子W＝w1w2…wn和文法G，

选定拥有最大概率的语法结构树。这一问题与HMM中类似，仍然采用动态规划的思想去解决。最后利用CYK算法去生成拥有最大概率的语法结构树。

第三个问题是给定PCFG G和句子W＝w1w2…wn，如何调节G的概率参数，使句子的概率最大，与HMM相对的，PCFG这里采用的算法名叫内外向算法。与前后向算法相同，也属于一种EM算法，其基本思想是，首先给G的产生式随机地赋予一个概率值（满足归一化条件），得到文法G0，然后根据G0和训练数据，可以计算出每条规则使用次数的期望值，用期望值进行最大似然估计，得到语法G的新参数值，新的语法记作G1，然后循环执行该过程，G的参数概率将收敛于最大似然估计值。

PCFG只是一种特殊的上下文无关文法模型，根据PCFG的模型和句子，具体去对句子做语法分析，生成语法结构树，靠的是还是CYK算法。CYK算法是一个用来判定任意给定的字符串W是否属于一个上下文无关文法的算法。

基于PCFG的句法分析模型存在有许多问题，比如因为PCFG没有对词汇进行建模，所以存在对词汇信息不敏感的问题。因此人们提出了词汇化的短语结构分析器，有效的提升了基于PCFG的句法分析器的能力。

而且，我们上面也提到了PCFG的三个独立性假设，这也导致了规则之间缺乏结构依赖关系（就像HMM的三个假设也不完全合理一样），而在自然语言中，生成每个非终结符的概率往往是与其上下文结构有关系的，所以有人提出了一种细化非终结符的方法，为每个非终结符标注上其父节点的句法标记信息。

D. Klein提出了带有隐含标记的上下文无关文法（PCFG with latent annotations，PCFG-LA），使得非终结符的细化过程可以自动进行，并且在使用EM算法优化时，为避免到达局部最优，对其进行了改进，提出了一种层次化的‘分裂-合并’策略，以期获取一个准确并且紧凑的PCFG-LA模型。基于PCFG-LA的Berkeley Parser作为非词汇化句法分析器的代表，无论是性能表现还是运行速度，都是目前开源的短语结构分析器中最好的。其语法树如下图：

普通句法树与PCFG-LA句法树对照实例

这个x就是隐含标记，xi的取值范围一般是人为设定的，一般取1~16之间的整数。而且PCFG-LA也类似于HMM模型，原始非终结符对应HMM模型中的观察输出，而隐含标记对应HMM模型中的隐含状态。

浅层语法分析（局部语法分析）

由于完全语法分析要确定句子所包含的全部句法信息，并确定句子中各成分之间的关系，这是一项十分苦难的任务。到目前为止，句法分析器的各方面都难以达到令人满意的程度，为了降低问题的复杂度，同时获得一定的句法结构信息，浅层句法分析应运而生。

浅层语法分析只要求识别句子中的某些结构相对简单的独立成为，例如非递归的名词短语、动词短语等，这些被识别出来的结构通常称为语块（chunk）。

浅层句法分析将句法分析分解为两个主要子任务，一个是语块的识别和分析，另一个是语块之间的依附关系分析。其中，语块的识别和分析是主要任务。在某种程度上说，浅层句法分析使句法分析的任务得到了简化，同时也有利于句法分析系统在大规模真实文本处理系统中迅速得到应用。

基本名词短语（base NP）是语块中的一个重要类别，它指的是简单的、非嵌套的名词短语，不含有其他子项短语，并且base NP之间结构上是独立的。示例如下：

base NP识别就是从句子中识别出所有的base NP，根据这种理解，一个句子中的成分和简单的分为baseNP和非base NP两类，那么base NP识别就成了一个分类问题。

base NP的表示方法有两种，一种是括号分隔法，一种是IOB标注法。括号分隔法就是将base NP用方括号界定边界，内部的是base NP，外部的不属于base NP。IOB标注法中，字母B表示base NP的开端，I表示当前词语在base NP内，O表示词语位于base NP之外。

基于SVM的base NP识别方法

由于base NP识别是多值分类问题，而基础SVM算法解决的是二值分类问题，所以一般可以采用配对策略（pairwise method）和一比其余策略（one vs. other method）。

SVM一般要从上下文的词、词性、base NP标志中提取特征来完成判断。一般使用的词语窗口的长度为5（当前词及其前后各两个词）时识别的效果最好。

基于WINNOW的base NP识别方法

WINNOW是解决二分问题的错误驱动的机器学习方法，该方法能从大量不相关的特征中快速学习。

WINNOW的稀疏网络（SNoW）学习结构是一种多类分类器，专门用于处理特征识别领域的大规模学习任务。WINNOW算法具有处理高维度独立特征空间的能力，而在自然语言处理中的特征向量恰好具有这种特点，因此WINNOW算法也常用于词性标注、拼写错误检查和文本分类等等。

简单WINNOW的基本思想是，已知特征向量和参数向量和实数阈值θ，先将参数向量均初始化为1，将训练样本代入，求特征向量和参数向量的内积，将其与θ比较，如果大于θ，则判定为正例，小于θ则判定为反例，将结果与正确答案作比较，依据结果来改变权值。

如果将正例估计成了反例，那么对于原来值为1的x，把它的权值扩大。如果将反例估计成了正例，那么对于原来值为1的x，把它的权值缩小。然后重新估计重新更改权重，直到训练完成。

这其实让我想到了LR算法，因为LR算法也是特征向量与参数向量的内积，最后将其送到Sigmoid函数中去拿到判定结果，然后大于0.5的为正例，小于0.5的为反例，实际上只要反过来，Sigmod函数输出0.5时候的输入就是WINNOW算法里的那个实数阈值θ。但是区别在于WINNOW算法只判定大小，不判定概率，而LR利用Sigmoid函数给出了概率。LR利用这给出的概率，通过使训练集的生成概率最大化来调整参数，而WINNOW则是直接朴素的错误情况来增大或缩小相关参数。目测LR因为使用了梯度下降，它的收敛速度要快于WINNOW，而WINNOW的优势则在于可以处理大量特征。

基于CRF的base NP识别方法

基于CRF的base NP识别方法拥有与SVM方法几乎一样的效果，优于基于WINNOW的识别方法、基于MEMM的识别方法和感知机方法，而且基于CRF的base NP识别方法在运行速度上较其他方法具有明显优势。

依存语法理论

在自然语言处理中，我们有时不需要或者不仅仅需要整个句子的短语结构树，而且要知道句子中词与词之间的依存关系。用词与词之间的依存关系来描述语言结构的框架成为依存语法，又称从属关系语法。利用依存语法进行句法分析也是自然语言理解的重要手段之一。

有人认为，一切结构语法现象可以概括为关联、组合和转位这三大核心。句法关联建立起词与词之间的从属关系，这种从属关系由支配词和从属词联结而成，谓语中的动词是句子的中心并支配别的成分，它本身不受其他任何成分支配。

依存语法的本质是一种结构语法，它主要研究以谓词为中心而构句时由深层语义结构映现为表层语法结构的状况及条件，谓词与体词之间的同现关系，并据此划分谓词的词类。

常用的依存于法结构图示有三种：

计算机语言学家J. Robinson提出了依存语法的四条公理：

一个句子只有一个独立的成分

句子的其他成分都从属于某一成分

任何一个成分都不能依存于两个或两个以上的成分

如果成分A直接从属于成分B，而成分C在句子中位于A和B之间，那么，成分C或者属于成分A，或者从属于B，或者从属于A和B之间的某一成分。

这四条公理相当于对依存图和依存树的形式约束：单一父节点、连通、无环和可投射，由此来保证句子的依存分析结果是一棵有根的树结构。

这里提一下可投射，如果单词之间的依存弧画出来没有任何的交叉，就是可投射的（参考上面的两个有向图）。

为了便于理解，我国学者提出了依存结构树应满足的5个条件：

单纯结点条件：只有终结点，没有非终结点

单一父结点条件：除根节点没有父结点外，所有的结点都只有一个父结点

独根结点条件：一个依存树只能有一个根结点，它支配其他结点

非交条件：依存树的树枝不能彼此相交

互斥条件：从上到下的支配关系和从左到右的前于关系之间是相互排斥的，如果两个结点之间存在着支配关系，它们就不能存在于前于关系

这五个条件是有交集的，但它们完全从依存表达的空间结构出发，比四条公理更直观更实用。

Gaifman 1965年给出了依存语法的形式化表示，证明了依存语法与上下文无关文法没有什么不同..

类似于上下文无关文法的语言形式对被分析的语言的投射性进行了限制，很难直接处理包含非投射现象的自由语序的语言。20世纪90年代发展起来了约束语法和相应的基于约束满足的依存分析方法，可以处理此类非投射性语言问题。

基于约束满足的分析方法建立在约束依存语法之上，将依存句法分析看做可以用约束满足问题来描述的有限构造问题。

约束依存语法用一系列形式化、描述性的约束将不符合约束的依存分析去掉，直到留下一棵合法的依存树。

生成式依存分析方法、判别式依存分析方法和确定性依存分析方法是数据驱动的统计依存分析中具有代表性的三种方法。

生成性依存分析方法

生成式依存分析方法采用联合概率模型生成一系列依存语法树并赋予其概率分值，然后采用相关算法找到概率打分最高的分析结果作为最后输出。

生成式依存分析模型使用起来比较方便，它的参数训练时只在训练集中寻找相关成分的计数，计算出先验概率。但是，生成式方法采用联合概率模型，再进行概率乘积分解时做了近似性假设和估计，而且，由于采用全局搜索，算法的复杂度较高，因此效率较低，但此类算法在准确率上有一定优势。但是类似于CYK算法的推理方法使得此类模型不易处理非投射性问题。

判别式依存分析方法

判别式依存分析方法采用条件概率模型，避开了联合概率模型所要求的独立性假设（考虑判别模型CRF舍弃了生成模型HMM的独立性假设），训练过程即寻找使目标函数（训练样本生成概率）最大的参数θ（类似Logistic回归和CRF）。

判别式方法不仅在推理时进行穷尽搜索，而且在训练算法上也具有全局最优性，需要在训练实例上重复句法分析过程来迭代参数，训练过程也是推理过程，训练和分析的时间复杂度一致。

确定性依存方法

确定性依存分析方法以特定的方向逐次取一个待分析的词，为每次输入的词产生一个单一的分析结果，直至序列的最后一个词。

这类算法在每一步的分析中都要根据当前分析状态做出决策（如判断其是否与前一个词发生依存关系），因此，这种方法又称决策式分析方法。

通过一个确定的分析动作序列来得到一个唯一的句法表达，即依存图（有时可能会有回溯和修补），这是确定性句法分析方法的基本思想。

短语结构与依存结构之间的关系

短语结构树可以被一一对应地转换成依存关系树，反之则不然。因为一棵依存关系树可能会对应多棵短语结构树。

C. 目前比较好用的中文编译器

无所谓好坏。主流编译器都可以。
最常用的两种：
1 VC/VS系列。微软开发的。与windows兼容性最好。适用于windows软件开发。
2 gcc系列，包括mingwin, codeblock, devicec等。对C/C++规范支持最好，是目前执行规范最彻底的编译器。
对于初学者，任意一个编译器都是没区别的。
水平较高的编程人员，可以根据自身常用区域，选择针对性的编译器。

D. 学习python建议用什么编译器

LLVM后端的numba和支持大部分C++编译器作为后端的nuitka。

Python由荷兰数学和计算机科学研究学会的Guido van Rossum于1990 年代初设计，作为一门叫做ABc语言的替代品。

Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。

Python解释器易于扩展，可以使用C或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。Python 也可用于可定制化软件中的扩展程序语言。Python丰富的标准库，提供了适用于各个主要系统平台的源码或机器码。

Python是一门跨平台的脚本语言，Python规定了一个Python语法规则，实现了Python语法的解释程序就成为了Python的解释器。

简单讲，编译器就是将“一种语言（通常为高级语言）”翻译为“另一种语言（通常为低级语言）”的程序。

一个现代编译器的主要工作流程：源代码 (source code) →预处理器(preprocessor) → 编译器 (compiler) →目标代码(object code) →链接器(Linker) → 可执行程序(executables)。

高级计算机语言便于人编写，阅读交流，维护。机器语言是计算机能直接解读、运行的。编译器将汇编或高级计算机语言源程序（Source program）作为输入，翻译成目标语言（Target language）机器代码的等价程序。

源代码一般为高级语言 (High-level language)，如Pascal、C、C++、Java、汉语编程等或汇编语言，而目标则是机器语言的目标代码（Object code），有时也称作机器代码（Machine code）。

对于C#、VB等高级语言而言，此时编译器完成的功能是把源码（SourceCode）编译成通用中间语言（MSIL/CIL）的字节码（ByteCode）。最后运行的时候通过通用语言运行库的转换，编程最终可以被CPU直接计算的机器码（NativeCode）。

E. 新手学C语言用什么编译器比较好

1、 visual c++6.0 （win8系统下不好用，C/C++）-Microsoft Visual C++ ；
2、 visual studio （2005、2008、2010、2012、2013）- Microsoft Visual Studio ；
3、 win-tc非常方便：不骗你，2000/XP/7都可以用；
4、 Code::Blocks（win7、8都可以用）；
5、 Turb C(只能编译C语言) ；
6、 gcc （GNU编译器套件）；
7、 DEV C++；
8、 C-Free；
9、 Borland C++、WaTCom C++、Borland C++ Builder、GNU DJGPP C++、Lccwin32 C Compiler3.1、High C、My Tc等，由于C语言比较成熟，所以编程环境很多；
10、还常用souceinsight ，在工作中还用Labwindows编程，直接调试运行，不过那是有工程背景，有工作经验的技术人员用的。

最好用第一个

F. R，Python，Scala 和 Java，到底该使用哪一种大数据编程语言

如果你对晦涩的统计运算进行繁重的数据分析工作，那么你不青睐R才怪。如果你跨GPU进行NLP或密集的神经网络处理，那么Python是很好的选择。如果想要一种加固的、面向生产环境的数据流解决方案，又拥有所有重要的操作工具，Java或Scala绝对是出色的选择。
有一个大数据项目，你知道问题领域(problem domain)，也知道使用什么基础设施，甚至可能已决定使用哪种框架来处理所有这些数据，但是有一个决定迟迟未能做出：我该选择哪种语言?(或者可能更有针对性的问题是，我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久，迟早要定夺。
当然，没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说，如今大数据方面有三种语言可以选择：R、Python和Scala，外加一直以来屹立于企业界的Java。那么，你该选择哪种语言?为何要选择它，或者说何时选择它?
下面简要介绍了每种语言，帮助你做出合理的决定。
R
R经常被称为是“统计人员为统计人员开发的一种语言”。如果你需要深奥的统计模型用于计算，可能会在CRAN上找到它――你知道，CRAN叫综合R档案网络(Comprehensive R Archive Network)并非无缘无故。说到用于分析和标绘，没有什么比得过ggplot2。而如果你想利用比你机器提供的功能还强大的功能，那可以使用SparkR绑定，在R上运行Spark。
然而，如果你不是数据科学家，之前也没有用过Matlab、SAS或OCTAVE，可能需要一番调整，才能使用R来高效地处理。虽然R很适合分析数据，但是就一般用途而言不太擅长。你可以用R构建模型，但是你需要考虑将模型转换成Scala或Python，才能用于生产环境，你不太可能使用这种语言编写一种集群控制系统(运气好的话，你可以对它进行调试)。
Python
如果你的数据科学家不使用R，他们可能就会彻底了解Python。十多年来，Python在学术界当中一直很流行，尤其是在自然语言处理(NLP)等领域。因而，如果你有一个需要NLP处理的项目，就会面临数量多得让人眼花缭乱的选择，包括经典的NTLK、使用GenSim的主题建模，或者超快、准确的spaCy。同样，说到神经网络，Python同样游刃有余，有Theano和Tensorflow;随后还有面向机器学习的scikit-learn，以及面向数据分析的NumPy和Pandas。
还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式，将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一，不过这年头，这个概念证明大有用途，以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上，包括Scala和R。
Python往往在大数据处理框架中得到支持，但与此同时，它往往又不是“一等公民”。比如说，Spark中的新功能几乎总是出现在Scala/Java绑定的首位，可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。
与R相反，Python是一种传统的面向对象语言，所以大多数开发人员用起来会相当得心应手，而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营，一派觉得“这非常有助于确保可读性”，另一派则认为，2016年，我们应该不需要就因为一行代码有个字符不在适当的位置，就要迫使解释器让程序运行起来。
Scala
现在说说Scala：在本文介绍的四种语言中，Scala是最轻松的语言，因为大家都欣赏其类型系统。Scala在JVM上运行，基本上成功地结合了函数范式和面向对象范式，目前它在金融界和需要处理海量数据的公司企业中取得了巨大进展，常常采用一种大规模分布式方式来处理(比如Twitter和LinkedIn)。它还是驱动Spark和Kafka的一种语言。
由于Scala在JVM里面运行，它可以立即随意访问Java生态系统，不过它也有一系列广泛的“原生”库，用于处理大规模数据(尤其是Twitter的Algebird和Summingbird)。它还包括一个使用非常方便的REPL，用于交互式开发和分析，就像使用Python和R那样。
我个人非常喜欢Scala，因为它包括许多实用的编程功能，比如模式匹配，而且被认为比标准的Java简洁得多。然而，用Scala来开发不止一种方法，这种语言将此作为一项特色来宣传。这是好事!不过考虑到它拥有图灵完备(Turing-complete)的类型系统和各种弯弯曲曲的运算符(“/:”代表foldLeft，“:\”代表foldRight)，很容易打开Scala文件，以为你看到的是某段讨厌的Perl代码。这就需要在编写Scala时遵循一套好的实践和准则(Databricks的就很合理)。
另一个缺点是，Scala编译器运行起来有点慢，以至于让人想起以前“编译!”的日子。不过，它有REPL、支持大数据，还有采用Jupyter和Zeppelin这一形式的基于Web的笔记本框架，所以我觉得它的许多小问题还是情有可原。
Java
最终，总是少不了Java――这种语言没人爱，被遗弃，归一家只有通过起诉谷歌才有钱可赚时才似乎关心它的公司(注：Oracle)所有，完全不时髦。只有企业界的无人机才使用Java!不过，Java可能很适合你的大数据项目。想一想Hadoop MapRece，它用Java编写。HDFS呢?也用Java来编写。连Storm、Kafka和Spark都可以在JVM上运行(使用Clojure和Scala)，这意味着Java是这些项目中的“一等公民”。另外还有像Google Cloud Dataflow(现在是Apache Beam)这些新技术，直到最近它们还只支持Java。
Java也许不是摇滚明星般备受喜爱的首选语言。但是由于研发人员在竭力理清Node.js应用程序中的一套回调，使用Java让你可以访问一个庞大的生态系统(包括分析器、调试器、监控工具以及确保企业安全和互操作性的库)，以及除此之外的更多内容，大多数内容在过去二十年已久经考验(很遗憾，Java今年迎来21岁，我们都老矣)。
炮轰Java的一个主要理由是，非常繁琐冗长，而且缺少交互式开发所需的REPL(R、Python和Scala都有)。我见过10行基于Scala的Spark代码迅速变成用Java编写的变态的200行代码，还有庞大的类型语句，它们占据了屏幕的大部分空间。然而，Java 8中新的Lambda支持功能对于改善这种情况大有帮助。Java从来不会像Scala那么紧凑，但是Java 8确确实实使得用Java进行开发不那么痛苦。
至于REPL?好吧，目前还没有。明年推出的Java 9会包括JShell，有望满足你的所有REPL要求。

G. 常见的C语言编译器是什么

目前最流行的C语言编译器有以下几种：

1、GNU Compiler Collection 或称GCC

GCC（GNU Compiler Collection，GNU编译器套件），是由 GNU 开发的编程语言编译器。它是以GPL许可证所发行的自由软件，也是 GNU计划的关键部分。

GCC原本作为GNU操作系统的官方编译器，现已被大多数类Unix操作系统（如Linux、BSD、Mac OS X等）采纳为标准的编译器，GCC同样适用于微软的Windows。GCC是自由软件过程发展中的着名例子，由自由软件基金会以GPL协议发布。

2、Microsoft C 或称 MS C

Microsoft C 是c语言的一种IDE（集成开发环境），常见的还有Microsoft Visual C++，Borland C++，Watcom C++ ,Borland C++ ，Borland C++ Builder,Borland C++ 3.1 for DOS,Watcom C++ 11.0 for DOS,GNU DJGPP C++ ，Lccwin32 C Compiler 3.1,High C,Turbo C等等......

3、Borland Turbo C 或称 Turbo C

Turbo C是美国Borland公司的产品，Borland公司是一家专门从事软件开发、研制的大公司。该公司相继推出了一套 Turbo系列软件, 如Turbo BASIC, Turbo Pascal, Turbo Prolog, 这些软件很受用户欢迎。

(7)nlp用什么编译器扩展阅读：

C编译的整个过程很复杂，大致可以分为以下四个阶段：

1、预处理阶段在该阶段主要完成对源代码的预处理工作，主要包括对宏定义指令，头文件包含指令，预定义指令和特殊字符的处理，如对宏定义的替换以及文件头中所包含的文件中预定义代码的替换等，总之这步主要完成一些替换工作，输出是同源文件含义相同但内容不同的文件。

2、编译、优化阶段编译就是将第一阶段处理得到的文件通过词法语法分析等转换为汇编语言。优化包括对中间代码的优化，如删除公共表达式，循环优化等；和对目标代码的生成进行的优化，如如何充分利用机器的寄存器存放有关变量的值，以减少内存访问次数。

3、汇编阶段将汇编语言翻译成机器指令。

4、链接阶段链接阶段的主要工作是将有关的目标文件连接起来，即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的目标文件成为一个能够被操作系统装入执行的统一整体。

H. python有什么好的入门教程用什么编译器呢

python是一门动态解释性语言不像c语言一样还有编译器，动态语言都是对应一个解释器，python的解释器有很多版本，其中用得最多最广泛的是cpython，大家一提python基本就是值得喜欢个版本，目前cpython已经更新到3.9版本，希望可以帮到你

I. 学python用什么编译器啊，哪位大佬推荐一下

1、CPython
是Python语言规范的参考实现，能够优先获得Python语言的最新、最强的功能，CPython是由C语言编写而成，不但可以从Python代码中调用C代码的函数，还可以直接在Python中使用大量现有的C代码库。
2、Brython
Brython可用于在浏览器中运行包含了Python 3脚本的Web应用。
3、PyPy Python
虽然第一个推荐的是在Python中使用最广泛的编译器，但却不是最快的，PyPy采用的是即时的编译概念，在代码执行前，就直接编译为机器代码，因此其执行速度提高了近4倍。
4、Jython或JPython
使用率第二高，Jython最初被称为JPython，是通过Python语言来实现Java虚拟机的，开发者既可以将现有的Java包和代码库，导入自己的Python程序中，还可以在Java程序中嵌入Python脚本。
5、Cython
Cython与CPython不同，更像是一个超集，允许开发者在代码中结合C和Python，从而生成C语言代码类型的输出，以供任何一种C/C++编译器进行后续编译。
6、Skulpt
流行的速度非常快，主要目的是提供一种良好的在线式Python编译器，也可以通过让Web应用引擎包含Skulpt，以方便开发者编写出被用于前端的Python脚本。
7、PyJS
是另一款完全用Python去开发Web应用的编译工具，在后台，PyJS会在使用内置的Ajax框架之前，将Python代码编译为JavaScript。
8、WinPython
是Python的"即用型"发行版，也就意味着用户无需安装，即可在Windows PC上运行，作为另一种Python的实现，WinPython编译器不仅带来了Python执行环境，而且还包含了诸如：Scipy、Numpy、以及Pandas等各种Python库。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1096

制作脚本网站发布：2025-10-20 08:17:34 浏览：1375

python中的init方法发布：2025-10-20 08:17:33 浏览：1064

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1237

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1105

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1456

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：659

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：559

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1233

python股票数据获取发布：2025-10-20 07:39:44 浏览：1261

nlp用什么编译器

与nlp用什么编译器相关的资讯