python共轭梯度

发布时间: 2023-04-01 02:20:11

㈠各种编程语言的深度学习库整理大全！

各种编程语言的深度学习库整理大全！
python1. Theano是一个python类库，用数组向量来定义和计算数学表达式。它使得在Python环境下编写深度学习算法变得简单。在它基础之上还搭建了许多类库。
1.Keras是一个简洁、高度模块化的神经网络库，它的设计参考了Torch，用Python语言编写，支持调用GPU和CPU优化后的Theano运算。
2.Pylearn2是一个集成大量深度学习常见模型和训练算法的库，如随机梯度下降等。它的功能库都是基于Theano之上。
3.Lasagne是一个搭建和训练神经网络的轻量级封装库，基于Theano。它遵循简洁化、透明化、模块化、实用化和专一化的原则。
4.Blocks也是一个基于Theano的帮助搭建神经网络的框架。
2. Caffe是深度学习的框架，它注重于代码的表达形式、运算速度以及模块化程度。它是由伯克利视觉和学习中心（Berkeley Vision and Learning Center, BVLC）以及社区成员共同开发。谷歌的DeepDream项目就是基于Caffe框架完成。这个框架是使用BSD许可证的C++库，并提供了Python调用接口。
3. nolearn囊括了大量的现有神经网络函数库的封装和抽象接口、大名鼎鼎的Lasagne以及一些机器学习的常用模块。
4. Genism也是一个用Python编写的深度学习小工具，采用高效的算法来处理大规模文本数据。
5. Chainer在深度学习的理论算法和实际应用之间架起一座桥梁。它的特点是强大、灵活、直观，被认为是深度学习的灵活框架。
6. deepnet是基于GPU的深度学习算法函数库，使用Python语言开发，实现了前馈神经网络（FNN）、受限玻尔兹曼机（RBM）、深度信念网络（DBN）、自编码器（AE）、深度玻尔兹曼机（DBM）和卷积神经网络（CNN）等算法。
7. Hebel也是深度学习和神经网络的一个Python库，它通过pyCUDA控制支持CUDA的GPU加速。它实现了最重要的几类神经网络模型，提供了多种激活函数和模型训练方法，例如momentum、Nesterov momentum、dropout、和early stopping等方法。
8. CXXNET是一个基于MShadow开发的快速、简洁的分布式深度学习框架。它是一个轻量级、易扩展的C++/CUDA神经网络工具箱，提供友好的Python/Matlab接口来进行训练和预测。
9. DeepPy是基于NumPy的深度学习框架。
10. DeepLearning是一个用C++和Python共同开发的深度学习函数库。
11. Neon是Nervana System 的深度学习框架，使用Python开发。
Matlab
1. ConvNet 卷积神经网络是一类深度学习分类算法，它可以从原始数据中自主学习有用的特征，通过调节权重值来实现。
2. DeepLearnToolBox是用于深度学习的Matlab/Octave工具箱，它包含深度信念网络（DBN）、栈式自编码器（stacked AE）、卷积神经网络（CNN）等算法。
3. cuda-convet是一套卷积神经网络（CNN）代码，也适用于前馈神经网络，使用C++/CUDA进行运算。它能对任意深度的多层神经网络建模。只要是有向无环图的网络结构都可以。训练过程采用反向传播算法（BP算法）。
4. MatConvNet是一个面向计算机视觉应用的卷积神经网络（CNN）Matlab工具箱。它简单高效，能够运行和学习最先进的机器学习算法。
CPP
1. eblearn是开源的机器学习C++封装库，由Yann LeCun主导的纽约大学机器学习实验室开发。它用基于能量的模型实现卷积神经网络，并提供可视化交互界面（GUI）、示例以及示范教程。
2. SINGA是Apache软件基金会支持的一个项目，它的设计目标是在现有系统上提供通用的分布式模型训练算法。
3. NVIDIA DIGITS是用于开发、训练和可视化深度神经网络的一套新系统。它把深度学习的强大功能用浏览器界面呈现出来，使得数据科学家和研究员可以实时地可视化神经网络行为，快速地设计出最适合数据的深度神经网络。
4. Intel? Deep Learning Framework提供了Intel?平台加速深度卷积神经网络的一个统一平台。
Java
1. N-Dimensional Arrays for Java (ND4J) 是JVM平台的科学计算函数库。它主要用于产品中，也就是说函数的设计需求是运算速度快、存储空间最省。
2. Deeplearning4j 是第一款商业级别的开源分布式深度学习类库，用Java和Scala编写。它的设计目的是为了在商业环境下使用，而不是作为一款研究工具。
3. Encog是一个机器学习的高级框架，涵盖支持向量机、人工神经网络、遗传编程、贝叶斯网络、隐马可夫模型等，也支持遗传算法。
JavaScript
1. Convnet.js 由JavaScript编写，是一个完全在浏览器内完成训练深度学习模型（主要是神经网络）的封装库。不需要其它软件，不需要编译器，不需要安装包，不需要GPU，甚至不费吹灰之力。
Lua
1. Torch是一款广泛适用于各种机器学习算法的科学计算框架。它使用容易，用快速的脚本语言LuaJit开发，底层是C/CUDA实现。Torch基于Lua编程语言。
Julia
1. Mocha是Julia的深度学习框架，受C++框架Caffe的启发。Mocha中通用随机梯度求解程序和通用模块的高效实现，可以用来训练深度/浅层（卷积）神经网络，可以通过（栈式）自编码器配合非监督式预训练（可选）完成。它的优势特性包括模块化结构、提供上层接口，可能还有速度、兼容性等更多特性。
Lisp
1. Lush(Lisp Universal Shell)是一种面向对象的编程语言，面向对大规模数值和图形应用感兴趣的广大研究员、实验员和工程师们。它拥有机器学习的函数库，其中包含丰富的深度学习库。
Haskell
1. DNNGraph是Haskell用于深度神经网络模型生成的领域特定语言（DSL）。
.NET
1. Accord.NET 是完全用C#编写的.NET机器学习框架，包括音频和图像处理的类库。它是产品级的完整框架，用于计算机视觉、计算机音频、信号处理和统计应用领域。
R
1. darch包可以用来生成多层神经网络（深度结构）。训练的方法包括了对比散度的预训练和众所周知的训练算法（如反向传播法或共轭梯度法）的细调。
2. deepnet实现了许多深度学习框架和神经网络算法，包括反向传播(BP)、受限玻尔兹曼机(RBM)、深度信念网络(DBP)、深度自编码器(Deep autoencoder)等等。

㈡销售量服从泊松分布,怎样获取最大利润

如何实现大数据利润最大利润化

制定合适的价格很重要，再怎么夸大都不过分。价格提高1%意味着经营利润平均可以增长8.7%（当然，假设销量没有损失）。不过我们估计，在许多公司每年制定的成千上万个定价决策中，多达30%未能给出最合适的价格——这意味着收入大量流失。而且考虑到如今海量数据为公司提供了难得的机会，可以做出合理得多的定价决策，这种现状尤其令人不安。对那些能够井然有序地应对复杂的大数据的公司而言，这蕴含着巨大价值。

将数据转化为利润的四个步骤

想制定更合适的价格，关键是完全明白现在可供公司使用的数据。这就需要放大目标，而不是缩小目标。正如综合性能源和化工企业沙索（Sasol）集团副总裁兼营销和销售总经理汤姆·奥布赖恩（Tom O’Brien）提及这种做法时说：“销售团队知道价格，还可能知道销量，但这种做法需要了解更多信息：极其精细的数据，实际上来自每一张发票，按产品、客户和包装分门别类。”

事实上，将大数据成功应用于B2B环境方面最激动人心的一些例子实际上不仅仅着眼于定价，还涉及一家公司的商业引擎的其他方面。比如说，“动态交易评分”（dynamic deal scoring）提供了单笔交易层面的价格指导，还提供了决策逐级上报点、激励机制、绩效评分及更多方面，立足于一系列相似的盈/亏交易。使用较小的、相关的交易样本很有必要，因为与任何一笔交易息息相关的因素会有变化，这导致一系列总体交易成为毫无用处的衡量基准。我们已见过这种方法应用于技术行业，取得了巨大成功。将销售利润率提高了4到8个百分点（相对于同一家公司的对照组）。

想获得足够精细的数据，公司就要做好这四项工作

倾听数据。制定最合理的价格不是牵涉数据的挑战（公司通常已经坐拥庞大的数据宝库），而是牵涉分析的挑战。最出色的B2C公司知道如何解释自己拥有的海量数据，并见机行事，但B2B公司往往一味管理数据，而不是利用数据推动决策。优秀的分析工具可以帮助公司确定经常被忽视的因素（比如更宏观的经济形势、产品偏好以及销售代表的洽谈），揭示什么因素左右针对每个客户群和产品的价格。

提高自动化。人工分析数千种孝顷产品太耗费时间和财力。自动化系统可以识别狭小的客户群，确定什么因素左右每个客户群的价值，并且拿来与历史交易数据进行比较。这样一来，公司就可以根据数据，为产品群和客户群制定有针对性的价格。自动化还大大简化了复制和调整分析的工作，因此没必要每次都从头开始分析。

培养技能、树立信心。实施新价格既在运营方面带来了挑战，又在沟通携族方面带来了挑战。成功的公司非常注重深思熟虑的变革计划，帮助销售队伍了解并接受新的定价方法。公司需要与销售代表们齐心协力，解释为什么实行建议价，这巧隐陆套价格体系是如何运作的，那样销售代表就会非常信任价格，从而竭力说服顾客。同样重要的是制定一套明确清晰的沟通方法，为价格给出一个理由，从而着重突出价值，然后针对具体顾客给出相应的理由。全面的洽谈培训也至关重要，以便让销售代表获得信心和工具，那样与客户面对面交流时，能拿出颇有说服力的理由。最优秀的领导陪同销售代表会见最难拿下的客户，专注于迅速见效，那样销售代表就能树立起信心，积极奉行新的定价方法。林德集团旗下瑞士PanGas AG公司的总经理罗伯特·克里格（Robert Krieger）说：“表明领导层支持这种新的定价方法这个立场，至关重要。为此，我们采取的做法就是领导层与销售代表一起拜见难缠的客户。我们不仅能够帮助销售代表，还能够阐明为什么制定新价格。”

积极管理绩效。想改善绩效管理，公司就需要借助实用的绩效指标支持销售队伍。最大的影响来自确保销售一线对于客户带来的利润了然于胸；销售和营销部门拥有合适的分析技能，得以发现机会，并牢牢抓住机会。还需要将权力下放给销售队伍，让他们自行调整价格，而不是依赖集中式团队。这不仅需要创业理念，还需要在针对特定的客户制定价格策略时有一定的创造力。在改变定价策略和绩效衡量标准的同时，可能还要改变激励机制。

我们已经看到了这一幕：软件、化工、建材和电信等众多行业的公司利用大数据，帮助制定更合理的定价决策，因而收到显着成效。这些公司都有数量众多的库存单位（SKU）和交易，还有一大批高度分散的客户；重新制定价格后，都发现利润率提高了3%到8%，这些价格是在极其精细的产品数据层面制定的。仅举一例，一家欧洲建材公司为几种有所选择的产品制定合适的价格后，利润增幅高达20%。如果公司想制定合适的价格，就应该充分利用大数据，并投入足够的资源来支持销售代表，否则它们会发现自己在为此付出高昂的代价：利润流失。

转载请注明：数据分析 » 如何实现大数据利润最大利润化

量化分析师的Python_python 金融量化分析_python金融大数据分析

量化分析师的Python_python 金融量化分析_python金融大数据分析

一、SciPy概述
前篇已经大致介绍了NumPy，接下来让我们看看SciPy能做些什么。NumPy替我们搞定了向量和矩阵的相关操作，基本上算是一个高级的科学计算器。SciPy基于NumPy提供了更为丰富和高级的功能扩展，在统计、优化、插值、数值积分、时频转换等方面提供了大量的可用函数，基本覆盖了基础科学计算相关的问题。

在量化分析中，运用最广泛的是统计和优化的相关技术，本篇重点介绍SciPy中的统计和优化模块，其他模块在随后系列文章中用到时再做详述。

本篇会涉及到一些矩阵代数，如若感觉不适，可考虑跳过第三部分或者在理解时简单采用一维的标量代替高维的向量。

首先还是导入相关的模块，我们使用的是SciPy里面的统计和优化部分：

In[1]:

import numpy as npimport scipy.stats as statsimport scipy.optimize as opt

二、统计部分2.1 生成随机数

我们从生成随机数开始，这样方便后面的介绍。生成n个随机数可用rv_continuous.rvs(size=n)或rv_discrete.rvs(size=n)，其中rv_continuous表示连续型的随机分布，如均匀分布（uniform）、正态分布（norm）、贝塔分布（beta）等；rv_discrete表示离散型的随机分布，如伯努利分布（bernoulli）、几何分布（geom）、泊松分布（poisson）等。我们生成10个[0, 1]区间上的随机数和10个服从参数$a = 4$，$b = 2$的贝塔分布随机数：

In[2]:

rv_unif = stats.uniform.rvs(size=10)print rv_unifrv_beta = stats.beta.rvs(size=10, a=4, b=2)print rv_beta

[ 0.20630272 0.25929204 0.16859206 0.92573462 0.16383319 0.3475617 0.83792048 0.79574153 0.37945051 0.23439682][ 0.71216492 0.85688464 0.70310131 0.3783662 0.69507561 0.78626586 0.54529967 0.4261079 0.26646767 0.8519046 ]

在每个随机分布的生成函数里，都内置了默认的参数，如均匀分布的上下界默认是0和1。可是一旦需要修改这些参数，每次生成随机都要敲这么老长一串有点麻烦，能不能简单点？SciPy里头有一个Freezing的功能，可以提供简便版本的命令。SciPy.stats支持定义出某个具体的分布的对象，我们可以做如下的定义，让beta直接指代具体参数$a = 4$和$b = 2$的贝塔分布。为让结果具有可比性，这里指定了随机数的生成种子，由NumPy提供。

In[3]:

np.random.seed(seed=2015)rv_beta = stats.beta.rvs(size=10, a=4, b=2)print "method 1:"print rv_betanp.random.seed(seed=2015)beta = stats.beta(a=4, b=2)print "method 2:"print beta.rvs(size=10)

method 1:[ 0.43857338 0.9411551 0.75116671 0.92002864 0.62030521 0.56585548 0.41843548 0.5953096 0.88983036 0.94675351]method 2:[ 0.43857338 0.9411551 0.75116671 0.92002864 0.62030521 0.56585548 0.41843548 0.5953096 0.88983036 0.94675351]

2.2 假设检验

好了，现在我们生成一组数据，并查看相关的统计量（相关分布的参数可以在这里查到：http://docs.scipy.org/doc/scipy/reference/stats.html）：

In[4]:

norm_dist = stats.norm(loc=0.5, scale=2)n = 200dat = norm_dist.rvs(size=n)print "mean of data is: " + str(np.mean(dat))print "median of data is: " + str(np.median(dat))print "standard deviation of data is: " + str(np.std(dat))

mean of data is: 0.705195138069median of data is: 0.658167882933standard deviation of data is: 2.08967006905

假设这个数据是我们获取到的实际的某些数据，如股票日涨跌幅，我们对数据进行简单的分析。最简单的是检验这一组数据是否服从假设的分布，如正态分布。这个问题是典型的单样本假设检验问题，最为常见的解决方案是采用K-S检验（ Kolmogorov-Smirnov test）。单样本K-S检验的原假设是给定的数据来自和原假设分布相同的分布，在SciPy中提供了kstest函数，参数分别是数据、拟检验的分布名称和对应的参数：

In[5]:

mu = np.mean(dat)sigma = np.std(dat)stat_val, p_val = stats.kstest(dat, 'norm', (mu, sigma))print 'KS-statistic D = %6.3f p-value = %6.4f' % (stat_val, p_val)

KS-statistic D = 0.045 p-value = 0.8195

假设检验的$p$-value值很大（在原假设下，$p$-value是服从[0, 1]区间上的均匀分布的随机变量，可参考http://en.wikipedia.org/wiki/P-value ），因此我们接受原假设，即该数据通过了正态性的检验。在正态性的前提下，我们可进一步检验这组数据的均值是不是0。典型的方法是$t$检验（$t$-test），其中单样本的$t$检验函数为ttest_1samp：

In[6]:

stat_val, p_val = stats.ttest_1samp(dat, 0)print 'One-sample t-statistic D = %6.3f, p-value = %6.4f' % (stat_val, p_val)

One-sample t-statistic D = 4.761, p-value = 0.0000

我们看到$p$-value$ < 0.05$，即给定显着性水平0.05的前提下，我们应拒绝原假设：数据的均值为0。我们再生成一组数据，尝试一下双样本的$t$检验（ttest_ind）：

In[7]:

norm_dist2 = stats.norm(loc=-0.2, scale=1.2)dat2 = norm_dist2.rvs(size=n/2)stat_val, p_val = stats.ttest_ind(dat, dat2, equal_var=False)print 'Two-sample t-statistic D = %6.3f, p-value = %6.4f' % (stat_val, p_val)

Two-sample t-statistic D = 5.565, p-value = 0.0000

注意，这里我们生成的第二组数据样本大小、方差和第一组均不相等，在运用$t$检验时需要使用Welch’s $t$-test，即指定ttest_ind中的equal_var=False。我们同样得到了比较小的$p$-value$，在显着性水平0.05的前提下拒绝原假设，即认为两组数据均值不等。

stats还提供其他大量的假设检验函数，如bartlett和levene用于检验方差是否相等；anderson_ksamp用于进行Anderson-Darling的K-样本检验等。

2.3 其他函数

有时需要知道某数值在一个分布中的分位，或者给定了一个分布，求某分位上的数值。这可以通过cdf和ppf函数完成：

In[8]:

g_dist = stats.gamma(a=2)print "quantiles of 2, 4 and 5:"print g_dist.cdf([2, 4, 5])print "Values of 25%, 50% and 90%:"print g_dist.pdf([0.25, 0.5, 0.95])

quantiles of 2, 4 and 5:[ 0.59399415 0.90842181 0.95957232]Values of 25%, 50% and 90%:[ 0.1947002 0.30326533 0.36740397]

对于一个给定的分布，可以用moment很方便的查看分布的矩信息，例如我们查看$N(0, 1)$的六阶原点矩：

In[9]:

stats.norm.moment(6, loc=0, scale=1)

Out[9]:

15.000000000895332

describe函数提供对数据集的统计描述分析，包括数据样本大小，极值，均值，方差，偏度和峰度：

In[10]:

norm_dist = stats.norm(loc=0, scale=1.8)dat = norm_dist.rvs(size=100)info = stats.describe(dat)print "Data size is: " + str(info[0])print "Minimum value is: " + str(info[1][0])print "Maximum value is: " + str(info[1][1])print "Arithmetic mean is: " + str(info[2])print "Unbiased variance is: " + str(info[3])print "Biased skewness is: " + str(info[4])print "Biased kurtosis is: " + str(info[5])

Data size is: 100Minimum value is: -4.12414564687Maximum value is: 4.82577602489Arithmetic mean is: 0.0962913592209Unbiased variance is: 2.88719292463Biased skewness is: -0.00256548794681Biased kurtosis is: -0.317463421177

当我们知道一组数据服从某些分布的时候，可以调用fit函数来得到对应分布参数的极大似然估计（MLE, maximum-likelihood estimation）。以下代码示例了假设数据服从正态分布，用极大似然估计分布参数：

In[11]:

norm_dist = stats.norm(loc=0, scale=1.8)dat = norm_dist.rvs(size=100)mu, sigma = stats.norm.fit(dat)print "MLE of data mean:" + str(mu)print "MLE of data standard deviation:" + str(sigma)

MLE of data mean:-0.249880829912MLE of data standard deviation:1.89195303507

pearsonr和spearmanr可以计算Pearson和Spearman相关系数，这两个相关系数度量了两组数据的相互线性关联程度：

In[12]:

norm_dist = stats.norm()dat1 = norm_dist.rvs(size=100)exp_dist = stats.expon()dat2 = exp_dist.rvs(size=100)cor, pval = stats.pearsonr(dat1, dat2)print "Pearson correlation coefficient: " + str(cor)cor, pval = stats.pearsonr(dat1, dat2)print "Spearman's rank correlation coefficient: " + str(cor)

Pearson correlation coefficient: -0.0262911931014Spearman's rank correlation coefficient: -0.0262911931014

其中的$p$-value表示原假设（两组数据不相关）下，相关系数的显着性。

最后，在分析金融数据中使用频繁的线性回归在SciPy中也有提供，我们来看一个例子：

In[13]:

x = stats.chi2.rvs(3, size=50)y = 2.5 + 1.2 * x + stats.norm.rvs(size=50, loc=0, scale=1.5)slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)print "Slope of fitted model is:" , slopeprint "Intercept of fitted model is:", interceptprint "R-squared:", r_value**2

Slope of fitted model is: 1.44515601191Intercept of fitted model is: 1.91080684516R-squared: 0.798786910173

在前面的链接中，可以查到大部分stat中的函数，本节权作简单介绍，挖掘更多功能的最好方法还是直接读原始的文档。另外，StatsModels（http://statsmodels.sourceforge.net ）模块提供了更为专业，更多的统计相关函数。若在SciPy没有满足需求，可以采用StatsModels。

三、优化部分

优化问题在投资中可谓是根本问题，如果手上有众多可选的策略，应如何从中选择一个“最好”的策略进行投资呢？这时就需要用到一些优化技术针对给定的指标进行寻优。随着越来越多金融数据的出现，机器学习逐渐应用在投资领域，在机器学习中，优化也是十分重要的一个部分。以下介绍一些常见的优化方法，虽然例子是人工生成的，不直接应用于实际金融数据，我们希望读者在后面遇到优化问题时，能够从这些简单例子迅速上手解决。

3.1 无约束优化问题

所谓的无约束优化问题指的是一个优化问题的寻优可行集合是目标函数自变量的定义域，即没有外部的限制条件。例如，求解优化问题 [

minimizef(x)=x24.8x+1.2

] 就是一个无约束优化问题，而求解 [

minimizef(x)=x24.8x+1.2subject tox≥0

]则是一个带约束的优化问题。更进一步，我们假设考虑的问题全部是凸优化问题，即目标函数是凸函数，其自变量的可行集是凸集。（详细定义可参考斯坦福大学Stephen Boyd教授的教材convex optimization，下载链接：http://stanford.e/~boyd/cvxbook ）

我们以Rosenbrock函数 [ f(mathbf{x}) = sum{i=1}^{N-1} 100 (x_i – x{i-1}^2)^2 + (1 – x_{i-1})^2 ] 作为寻优的目标函数来简要介绍在SciPy中使用优化模块scipy.optimize。

首先需要定义一下这个Rosenbrock函数：

In[14]:

def rosen(x): """The Rosenbrock function""" return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0 + (1-x[:-1])**2.0)

3.1.1 Nelder-Mead单纯形法

单纯形法是运筹学中介绍的求解线性规划问题的通用方法，这里的Nelder-Mead单纯形法与其并不相同，只是用到单纯形的概念。设定起始点$mathbf{x}_0 = (1.3, 0.7, 0.8, 1.9, 1.2)$，并进行最小化的寻优。这里‘xtol’表示迭代收敛的容忍误差上界：

In[15]:

x_0 = np.array([0.5, 1.6, 1.1, 0.8, 1.2])res = opt.minimize(rosen, x_0, method='nelder-mead', options={'xtol': 1e-8, 'disp': True})print "Result of minimizing Rosenbrock function via Nelder-Mead Simplex algorithm:"print res

Optimization terminated successfully. Current function value: 0.000000 Iterations: 436 Function evaluations: 706Result of minimizing Rosenbrock function via Nelder-Mead Simplex algorithm: status: 0 nfev: 706 success: True fun: 1.6614969876635003e-17 x: array([ 1., 1., 1., 1., 1.]) message: 'Optimization terminated successfully.' nit: 436

Rosenbrock函数的性质比较好，简单的优化方法就可以处理了，还可以在minimize中使用method=’powell’来指定使用Powell’s method。这两种简单的方法并不使用函数的梯度，在略微复杂的情形下收敛速度比较慢，下面让我们来看一下用到函数梯度进行寻优的方法。

3.1.2 Broyden-Fletcher-Goldfarb-Shanno法

Broyden-Fletcher-Goldfarb-Shanno（BFGS）法用到了梯度信息，首先求一下Rosenbrock函数的梯度：

[ begin{split} frac{partial f}{partial xj} &= sum{i=1}^N 200(xi – x{i-1}^2)(delta{i,j} – 2x{i-1}delta{i-1,j}) -2(1 – x{i-1})delta_{i-1,j} &= 200(xj – x{j-1}^2) – 400xj(x{j+1} – x_j^2) – 2(1 – x_j) end{split}] 其中当$i=j$时，$delta_{i,j} = 1$，否则$delta_{i,j} = 0$。

边界的梯度是特例，有如下形式： [ begin{split} frac{partial f}{partial x_0} &= -400x_0(x_1 – x_0^2) – 2(1 – x_0), frac{partial f}{partial x{N-1}} &= 200(x{N-1} – x_{N-2}^2) end{split}]

我们可以如下定义梯度向量的计算函数了：

In[16]:

def rosen_der(x): xm = x[1:-1] xm_m1 = x[:-2] xm_p1 = x[2:] der = np.zeros_like(x) der[1:-1] = 200*(xm-xm_m1**2) - 400*(xm_p1 - xm**2)*xm - 2*(1-xm) der[0] = -400*x[0]*(x[1]-x[0]**2) - 2*(1-x[0]) der[-1] = 200*(x[-1]-x[-2]**2) return der

梯度信息的引入在minimize函数中通过参数jac指定：

In[17]:

res = opt.minimize(rosen, x_0, method='BFGS', jac=rosen_der, options={'disp': True})print "Result of minimizing Rosenbrock function via Broyden-Fletcher-Goldfarb-Shanno algorithm:"print res

Optimization terminated successfully. Current function value: 0.000000 Iterations: 52 Function evaluations: 63 Gradient evaluations: 63Result of minimizing Rosenbrock function via Broyden-Fletcher-Goldfarb-Shanno algorithm: status: 0 success: True njev: 63 nfev: 63 hess_inv: array([[ 0.00726515, 0.01195827, 0.0225785 , 0.04460906, 0.08923649], [ 0.01195827, 0.02417936, 0.04591135, 0.09086889, 0.18165604], [ 0.0225785 , 0.04591135, 0.09208689, 0.18237695, 0.36445491], [ 0.04460906, 0.09086889, 0.18237695, 0.36609277, 0.73152922], [ 0.08923649, 0.18165604, 0.36445491, 0.73152922, 1.46680958]]) fun: 3.179561068096293e-14 x: array([ 1. , 0.99999998, 0.99999996, 0.99999992, 0.99999983]) message: 'Optimization terminated successfully.' jac: array([ 4.47207141e-06, 1.30357917e-06, -1.86454207e-07, -2.00564982e-06, 4.98799446e-07])

3.1.3 牛顿共轭梯度法（Newton-Conjugate-Gradient algorithm）

用到梯度的方法还有牛顿法，牛顿法是收敛速度最快的方法，其缺点在于要求Hessian矩阵（二阶导数矩阵）。牛顿法大致的思路是采用泰勒展开的二阶近似： [ f(mathbf{x}) approx f(mathbf{x}_0) + nabla f(mathbf{x}_0)(mathbf{x} – mathbf{x}_0) + frac{1}{2}(mathbf{x} – mathbf{x}_0)^Tmathbf{H}(mathbf{x}_0)(mathbf{x} – mathbf{x}_0) ] 其中$mathbf{H}(mathbf{x}_0)$表示二阶导数矩阵。若Hessian矩阵是正定的，函数的局部最小值可以通过使上面的二次型的一阶导数等于0来获取，我们有： [ mathbf{x}_{mathrm{opt}} = mathbf{x}_0 – mathbf{H}^{-1}nabla f ]

这里可使用共轭梯度近似Hessian矩阵的逆矩阵。下面给出Rosenbrock函数的Hessian矩阵元素通式：

[ begin{split} H{i,j} = frac{partial^2 f}{partial x_i partial x_j} &= 200(delta{i,j} – 2x{i-1}delta{i-1,j}) – 400xi(delta{i+1,j} – 2xidelta{i,j}) – 400delta{i,j}(x{i+1} – xi^2) + 2delta{i,j}, &= (202 + 1200xi^2 – 400x{i+1}) delta{i,j} – 400x_idelta{i+1,j} – 400x{i-1}delta{i-1,j} end{split}] 其中$i,j in [1, N-2]$。其他边界上的元素通式为： [ begin{split} frac{partial^2 f}{partial x_0^2} &= 1200x_0^2 – 400x_1 + 2, frac{partial^2 f}{partial x_0 partial x_1} = frac{partial^2 f}{partial x_1 partial x_0} &= -400x_0, frac{partial^2 f}{partial x{N-1} partial x{N-2}} = frac{partial^2 f}{partial x{N-2} partial x{N-1}} &= -400x_{N-2}, frac{partial^2 f}{partial x_{N-1}^2} &= 200. end{split}]

例如，当$N=5$时的Hessian矩阵为：

[ mathbf{H} =

[1200x20400x1+2400x0000400x0202+1200x21400x2400x1000400x1202+1200x22400x3400x2000400x2202+1200x23400x4400x3000400x3200]

]为使用牛顿共轭梯度法，我们需要提供一个计算Hessian矩阵的函数：

In[18]:

def rosen_hess(x): x = np.asarray(x) H = np.diag(-400*x[:-1],1) - np.diag(400*x[:-1],-1) diagonal = np.zeros_like(x) diagonal[0] = 1200*x[0]**2-400*x[1]+2 diagonal[-1] = 200 diagonal[1:-1] = 202 + 1200*x[1:-1]**2 - 400*x[2:] H = H + np.diag(diagonal) return H

In[19]:

res = opt.minimize(rosen, x_0, method='Newton-CG', jac=rosen_der, hess=rosen_hess, options={'xtol': 1e-8, 'disp': True})print "Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian):"print res

Optimization terminated successfully. Current function value: 0.000000 Iterations: 20 Function evaluations: 22 Gradient evaluations: 41 Hessian evaluations: 20Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian): status: 0 success: True njev: 41 nfev: 22 fun: 1.47606641102778e-19 x: array([ 1., 1., 1., 1., 1.]) message: 'Optimization terminated successfully.' nhev: 20 jac: array([ -3.62847530e-11, 2.68148992e-09, 1.16637362e-08, 4.81693414e-08, -2.76999090e-08])

对于一些大型的优化问题，Hessian矩阵将异常大，牛顿共轭梯度法用到的仅是Hessian矩阵和一个任意向量的乘积，为此，用户可以提供两个向量，一个是Hessian矩阵和一个任意向量$mathbf{p}$的乘积，另一个是向量$mathbf{p}$，这就减少了存储的开销。记向量$mathbf{p} = (p_1, ldots, p_{N-1})$，可有

[ mathbf{H(x)p} = begin{bmatrix} (1200x0^2 – 400x_1 + 2)p_0 -400x_0p_1 vdots -400x{i-1}p{i-1} + (202 + 1200x_i^2 – 400x{i+1})pi – 400x_ip{i+1} vdots -400x{N-2}p{N-2} + 200p_{N-1} end{bmatrix} ]

我们定义如下函数并使用牛顿共轭梯度方法寻优：

In[20]:

def rosen_hess_p(x, p): x = np.asarray(x) Hp = np.zeros_like(x) Hp[0] = (1200*x[0]**2 - 400*x[1] + 2)*p[0] - 400*x[0]*p[1] Hp[1:-1] = -400*x[:-2]*p[:-2]+(202+1200*x[1:-1]**2-400*x[2:])*p[1:-1] -400*x[1:-1]*p[2:] Hp[-1] = -400*x[-2]*p[-2] + 200*p[-1] return Hpres = opt.minimize(rosen, x_0, method='Newton-CG', jac=rosen_der, hessp=rosen_hess_p, options={'xtol': 1e-8, 'disp': True})print "Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian times arbitrary vector):"print res

Optimization terminated successfully. Current function value: 0.000000 Iterations: 20 Function evaluations: 22 Gradient evaluations: 41 Hessian evaluations: 58Result of minimizing Rosenbrock function via Newton-Conjugate-Gradient algorithm (Hessian times arbitrary vector): status: 0

转载请注明：数据分析 » 量化分析师的Python_python 金融量化分析_python金融大数据分析

㈢ python逻辑回归怎么求正系数

Python 逻辑回归求正系数的方法可以分为两种：

1. 使用线性模型的求解方法：可以使用sklearn中的LogisticRegression类来求解正系数，调用其中的fit()方法就可以求解出正系数。

2. 使用梯度下降法：可以自己实现梯度下降法，通过不断迭代更新正系数，最终获得最优的正系数。

㈣人工智能一些术语总结

随着智能时代慢慢的到来，有一些基本概念都不知道真的是要落伍了，作为正在积极学习向上的青年，我想总结一份笔记，此份笔记会记录众多AI领域的术语和概念，当然，学一部分记录一部分，并且可能会夹杂着自己的一些理解，由于能力有限，有问题希望大家多多赐教。当然，由于内容太多，仅仅只是记录了中英名对照，有的加上了简单的解释，没加的后续大家有需求，我会慢慢完善~~。目录暂定以首字母的字典序排序。可以当作目录方便以后查阅~~建议收藏加点赞哈哈哈

------------------------------------------------这里是分割线--------------------------------------------------

A

准确率（accuracy）

分类模型预测准确的比例。

二分类问题中，准确率定义为：accuracy = (true positives +true negatives)/all samples

多分类问题中，准确率定义为：accuracy = correctpredictions/all samples

激活誉租函数（activation function）

一种函数，将前一层所有神经元激活值的加权和输入到一个非线性函数中，然后作为下一层神经元的输入，例如 ReLU 或 Sigmoid

AdaGrad

一种复杂的梯度下降算法，重新调节每个参数的梯度，高效地给每个参数一个单独的学习率。

AUC（曲线下面积）

一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类（Ture Positives）要比假正类（False Positives）概率大的确信度。

Adversarial example（对抗样本）

Adversarial Networks（对抗网络）

Artificial General Intelligence/AGI（通用人工智能）

Attention mechanism（注意力机制）

Autoencoder（自编码器）

Automatic summarization（自动摘要）

Average gradient（平均梯度）

Average-Pooling（平均池化）

B

反向传播（Backpropagation/BP）

神经网络中完成梯度下降的重要算法核返。首先，在前向传播的过程中计算每个节点的输出值。然后，在反向传播的过程中计算与每个参数对应的误差的偏导数。

基线（Baseline）

被用为对比模型表现参考的简单模型。

批量（Batch）

模型训练中一个迭代（指一次梯度更新）使用的样本集。

批量大小（Batch size）

一个批量中样本的数量。例如，SGD 的批量大小为 1，而 mini-batch 的批庆氏兆量大小通常在 10-1000 之间。

偏置（Bias）

与原点的截距或偏移量。

二元分类器（Binary classification）

一类分类任务，输出两个互斥类别中的一个。比如垃圾邮件检测。

词袋（Bag of words/Bow）

基学习器（Base learner）

基学习算法（Base learning algorithm）

贝叶斯网络（Bayesian network）

基准（Bechmark）

信念网络（Belief network）

二项分布（Binomial distribution）

玻尔兹曼机（Boltzmann machine）

自助采样法／可重复采样／有放回采样（Bootstrap sampling）

广播（Broadcasting）

C

类别（Class）

所有同类属性的目标值作为一个标签。

分类模型（classification）

机器学习模型的一种，将数据分离为两个或多个离散类别。

收敛（convergence）

训练过程达到的某种状态，其中训练损失和验证损失在经过了确定的迭代次数后，在每一次迭代中，改变很小或完全不变。

凸函数（concex function）

一种形状大致呈字母 U 形或碗形的函数。然而，在退化情形中，凸函数的形状就像一条线。

成本（cost）

loss 的同义词。深度学习模型一般都会定义自己的loss函数。

交叉熵（cross-entropy）

多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。

条件熵（Conditional entropy）

条件随机场（Conditional random field/CRF）

置信度（Confidence）

共轭方向(Conjugate directions)

共轭分布(Conjugate distribution)

共轭梯度(Conjugate gradient)

卷积神经网络（Convolutional neural network/CNN）

余弦相似度（Cosine similarity）

成本函数（Cost Function）

曲线拟合（Curve-fitting）

D

数据集（data set）

样本的集合

深度模型（deep model）

一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照（widemodel）。

dropout 正则化（dropoutregularization）

训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多，正则化越强。

数据挖掘（Data mining）

决策树/判定树（Decisiontree）

深度神经网络（Deep neural network/DNN）

狄利克雷分布（Dirichlet distribution）

判别模型（Discriminative model）

下采样（Down sampling）

动态规划（Dynamic programming）

E

早期停止法（early stopping）

一种正则化方法，在训练损失完成下降之前停止模型训练过程。当验证数据集（validationdata set）的损失开始上升的时候，即泛化表现变差的时候，就该使用早期停止法了。

嵌入（embeddings）

一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。

经验风险最小化（empirical risk minimization，ERM）

选择能使得训练数据的损失函数最小化的模型的过程。和结构风险最小化（structualrisk minimization）对照。

集成（ensemble）

多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法：

设置不同的初始化；

设置不同的超参量；

设置不同的总体结构。

深度和广度模型是一种集成。

样本（example）

一个数据集的一行内容。一个样本包含了一个或多个特征，也可能是一个标签。参见标注样本（labeledexample）和无标注样本（unlabeled example）。

F

假负类（false negative，FN）

被模型错误的预测为负类的样本。例如，模型推断一封邮件为非垃圾邮件（负类），但实际上这封邮件是垃圾邮件。

假正类（false positive，FP）

被模型错误的预测为正类的样本。例如，模型推断一封邮件为垃圾邮件（正类），但实际上这封邮件是非垃圾邮件。

假正类率（false positive rate，FP rate）

ROC 曲线（ROC curve）中的 x 轴。FP 率的定义是：假正率=假正类数/(假正类数+真负类数)

特征工程（feature engineering）

在训练模型的时候，挖掘对模型效果有利的特征。

前馈神经网络（Feedforward Neural Networks/FNN ）

G

泛化（generalization）

指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。

广义线性模型（generalized linear model）

最小二乘回归模型的推广/泛化，基于高斯噪声，相对于其它类型的模型（基于其它类型的噪声，比如泊松噪声，或类别噪声）。广义线性模型的例子包括：

logistic 回归

多分类回归

最小二乘回归

梯度（gradient）

所有变量的偏导数的向量。在机器学习中，梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。

梯度截断（gradient clipping）

在应用梯度之前先修饰数值，梯度截断有助于确保数值稳定性，防止梯度爆炸出现。

梯度下降（gradient descent）

通过计算模型的相关参量和损失函数的梯度最小化损失函数，值取决于训练数据。梯度下降迭代地调整参量，逐渐靠近权重和偏置的最佳组合，从而最小化损失函数。

图（graph）

在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的，表示传递一个操作（一个张量）的结果（作为一个操作数）给另一个操作。使用 TensorBoard 能可视化计算图。

高斯核函数（Gaussian kernel function）

高斯混合模型（Gaussian Mixture Model）

高斯过程（Gaussian Process）

泛化误差（Generalization error）

生成模型（Generative Model）

遗传算法（Genetic Algorithm/GA）

吉布斯采样（Gibbs sampling）

基尼指数（Gini index）

梯度下降（Gradient Descent）

H

启发式（heuristic）

一个问题的实际的和非最优的解，但能从学习经验中获得足够多的进步。

隐藏层（hidden layer）

神经网络中位于输入层（即特征）和输出层（即预测）之间的合成层。一个神经网络包含一个或多个隐藏层。

超参数（hyperparameter）

连续训练模型的过程中可以拧动的“旋钮”。例如，相对于模型自动更新的参数，学习率（learningrate）是一个超参数。和参量对照。

硬间隔（Hard margin）

隐马尔可夫模型（Hidden Markov Model/HMM）

层次聚类（Hierarchical clustering）

假设检验（Hypothesis test）

I

独立同分布（independently and identicallydistributed，i.i.d）

从不会改变的分布中获取的数据，且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。

推断（inference）

在机器学习中，通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中，推断指在观察到的数据的基础上拟合分布参数的过程。

输入层（input layer）

神经网络的第一层（接收输入数据）。

评分者间一致性（inter-rater agreement）

用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致，则任务说明可能需要改进。有时也叫标注者间信度（inter-annotator agreement）或评分者间信度（inter-raterreliability）。

增量学习（Incremental learning）

独立成分分析（Independent Component Analysis/ICA）

独立子空间分析（Independent subspace analysis）

信息熵（Information entropy）

信息增益（Information gain）

J

JS 散度（Jensen-ShannonDivergence/JSD）

K

Kernel 支持向量机（KernelSupport Vector Machines/KSVM）

一种分类算法，旨在通过将输入数据向量映射到更高维度的空间使正类和负类之间的边际最大化。例如，考虑一个输入数据集包含一百个特征的分类问题。为了使正类和负类之间的间隔最大化，KSVM 从内部将特征映射到百万维度的空间。KSVM 使用的损失函数叫作 hinge 损失。

核方法（Kernel method）

核技巧（Kernel trick）

k 折交叉验证／k 倍交叉验证（K-fold cross validation）

K - 均值聚类（K-MeansClustering）

K近邻算法（K-Nearest NeighboursAlgorithm/KNN）

知识图谱（Knowledge graph）

知识库（Knowledge base）

知识表征（Knowledge Representation）

L

L1 损失函数（L1 loss）

损失函数基于模型对标签的预测值和真实值的差的绝对值而定义。L1 损失函数比起 L2 损失函数对异常值的敏感度更小。

L1 正则化（L1regularization）

一种正则化，按照权重绝对值总和的比例进行惩罚。在依赖稀疏特征的模型中，L1 正则化帮助促使（几乎）不相关的特征的权重趋近于 0，从而从模型中移除这些特征。

L2 损失（L2 loss）

参见平方损失。

L2 正则化（L2regularization）

一种正则化，按照权重平方的总和的比例进行惩罚。L2 正则化帮助促使异常值权重更接近 0 而不趋近于 0。（可与 L1 正则化对照阅读。）L2 正则化通常改善线性模型的泛化效果。

标签（label）

在监督式学习中，样本的“答案”或“结果”。标注数据集中的每个样本包含一或多个特征和一个标签。在垃圾邮件检测数据集中，特征可能包括主题、发出者何邮件本身，而标签可能是“垃圾邮件”或“非垃圾邮件”。

标注样本（labeled example）

包含特征和标签的样本。在监督式训练中，模型从标注样本中进行学习。

学习率（learning rate）

通过梯度下降训练模型时使用的一个标量。每次迭代中，梯度下降算法使学习率乘以梯度，乘积叫作 gradient step。学习率是一个重要的超参数。

最小二乘回归（least squares regression）

通过 L2 损失最小化进行训练的线性回归模型。

线性回归（linear regression）

对输入特征的线性连接输出连续值的一种回归模型。

logistic 回归（logisticregression）

将 sigmoid 函数应用于线性预测，在分类问题中为每个可能的离散标签值生成概率的模型。尽管 logistic 回归常用于二元分类问题，但它也用于多类别分类问题（这种情况下，logistic回归叫作“多类别 logistic 回归”或“多项式回归”。

对数损失函数（Log Loss）

二元 logistic 回归模型中使用的损失函数。

损失（Loss）

度量模型预测与标签距离的指标，它是度量一个模型有多糟糕的指标。为了确定损失值，模型必须定义损失函数。例如，线性回归模型通常使用均方差作为损失函数，而 logistic 回归模型使用对数损失函数。

隐狄利克雷分布（Latent Dirichlet Allocation/LDA）

潜在语义分析（Latent semantic analysis）

线性判别（Linear Discriminant Analysis/LDA）

长短期记忆（Long-Short Term Memory/LSTM）

M

机器学习（machine learning）

利用输入数据构建（训练）预测模型的项目或系统。该系统使用学习的模型对与训练数据相同分布的新数据进行有用的预测。机器学习还指与这些项目或系统相关的研究领域。

均方误差（Mean Squared Error/MSE）

每个样本的平均平方损失。MSE 可以通过平方损失除以样本数量来计算。

小批量（mini-batch）

在训练或推断的一个迭代中运行的整批样本的一个小的随机选择的子集。小批量的大小通常在10 到 1000 之间。在小批量数据上计算损失比在全部训练数据上计算损失要高效的多。

机器翻译（Machine translation/MT）

马尔可夫链蒙特卡罗方法（Markov Chain Monte Carlo/MCMC）

马尔可夫随机场（Markov Random Field）

多文档摘要（Multi-document summarization）

多层感知器（Multilayer Perceptron/MLP）

多层前馈神经网络（Multi-layer feedforward neuralnetworks）

N

NaN trap

训练过程中，如果模型中的一个数字变成了 NaN，则模型中的很多或所有其他数字最终都变成 NaN。NaN 是“Not aNumber”的缩写。

神经网络（neural network）

该模型从大脑中获取灵感，由多个层组成（其中至少有一个是隐藏层），每个层包含简单的连接单元或神经元，其后是非线性。

神经元（neuron）

神经网络中的节点，通常输入多个值，生成一个输出值。神经元通过将激活函数（非线性转换）应用到输入值的加权和来计算输出值。

归一化（normalization）

将值的实际区间转化为标准区间的过程，标准区间通常是-1 到+1 或 0 到 1。例如，假设某个特征的自然区间是 800 到 6000。通过减法和分割，你可以把那些值标准化到区间-1 到+1。参见缩放。

Numpy

Python 中提供高效数组运算的开源数学库。pandas 基于 numpy 构建。

Naive bayes（朴素贝叶斯）

Naive Bayes Classifier（朴素贝叶斯分类器）

Named entity recognition（命名实体识别）

Natural language generation/NLG（自然语言生成）

Natural language processing（自然语言处理）

Norm（范数）

O

目标（objective）

算法尝试优化的目标函数。

one-hot 编码（独热编码）（one-hotencoding）

一个稀疏向量，其中：一个元素设置为 1，所有其他的元素设置为 0。。

一对多（one-vs.-all）

给出一个有 N 个可能解决方案的分类问题，一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。例如，一个模型将样本分为动物、蔬菜或矿物，则一对多的解决方案将提供以下三种独立的二元分类器：

动物和非动物

蔬菜和非蔬菜

矿物和非矿物

过拟合（overfitting）

创建的模型与训练数据非常匹配，以至于模型无法对新数据进行正确的预测

Oversampling（过采样）

P

pandas

一种基于列的数据分析 API。很多机器学习框架，包括 TensorFlow，支持 pandas 数据结构作为输入。参见 pandas 文档。

参数（parameter）

机器学习系统自行训练的模型的变量。例如，权重是参数，它的值是机器学习系统通过连续的训练迭代逐渐学习到的。注意与超参数的区别。

性能（performance）

在软件工程中的传统含义：软件运行速度有多快／高效？

在机器学习中的含义：模型的准确率如何？即，模型的预测结果有多好？

困惑度（perplexity）

对模型完成任务的程度的一种度量指标。例如，假设你的任务是阅读用户在智能手机上输入的单词的头几个字母，并提供可能的完整单词列表。该任务的困惑度（perplexity，P）是为了列出包含用户实际想输入单词的列表你需要进行的猜测数量。

流程（pipeline）

机器学习算法的基础架构。管道包括收集数据、将数据放入训练数据文件中、训练一或多个模型，以及最终输出模型。

Principal component analysis/PCA（主成分分析）

Precision（查准率／准确率）

Prior knowledge（先验知识）

Q

Quasi Newton method（拟牛顿法）

R

召回率（recall）

回归模型（regression model）

一种输出持续值（通常是浮点数）的模型。而分类模型输出的是离散值。

正则化（regularization）

对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类：

L1 正则化

L2 正则化

dropout 正则化

early stopping（这不是正式的正则化方法，但可以高效限制过拟合）

正则化率（regularization rate）

一种标量级，用 lambda 来表示，指正则函数的相对重要性。从下面这个简化的损失公式可以看出正则化率的作用：

minimize(loss function + λ(regularization function))

提高正则化率能够降低过拟合，但可能会使模型准确率降低。

表征（represention）

将数据映射到有用特征的过程。

受试者工作特征曲线（receiver operatingcharacteristic/ROC Curve）

反映在不同的分类阈值上，真正类率和假正类率的比值的曲线。参见 AUC。

Recurrent Neural Network（循环神经网络）

Recursive neural network（递归神经网络）

Reinforcement learning/RL（强化学习）

Re-sampling（重采样法）

Representation learning（表征学习）

Random Forest Algorithm（随机森林算法）

S

缩放（scaling）

特征工程中常用的操作，用于控制特征值区间，使之与数据集中其他特征的区间匹配。例如，假设你想使数据集中所有的浮点特征的区间为 0 到 1。给定一个特征区间是 0 到 500，那么你可以通过将每个值除以 500，缩放特征值区间。还可参见正则化。

scikit-learn

一种流行的开源机器学习平台。网址：www.scikit-learn.org。

序列模型（sequence model）

输入具有序列依赖性的模型。例如，根据之前观看过的视频序列对下一个视频进行预测。

Sigmoid 函数（sigmoid function）

softmax

为多类别分类模型中每个可能的类提供概率的函数。概率加起来的总和是 1.0。例如，softmax 可能检测到某个图像是一只狗的概率为 0.9，是一只猫的概率为 0.08，是一匹马的概率为 0.02。（也叫作 full softmax）。

结构风险最小化（structural risk minimization/SRM）

这种算法平衡两个目标：

构建预测性最强的模型（如最低损失）。

使模型尽量保持简单（如强正则化）。

比如，在训练集上的损失最小化 + 正则化的模型函数就是结构风险最小化算法。更多信息，参见 http://www.svms.org/srm/。可与经验风险最小化对照阅读。

监督式机器学习（supervised machine learning）

利用输入数据及其对应标签来训练模型。监督式机器学习类似学生通过研究问题和对应答案进行学习。在掌握问题和答案之间的映射之后，学生就可以提供同样主题的新问题的答案了。可与非监督机器学习对照阅读。

Similarity measure（相似度度量）

Singular Value Decomposition（奇异值分解）

Soft margin（软间隔）

Soft margin maximization（软间隔最大化）

Support Vector Machine/SVM（支持向量机）

T

张量（tensor）

TensorFlow 项目的主要数据结构。张量是 N 维数据结构（N 的值很大），经常是标量、向量或矩阵。张量可以包括整数、浮点或字符串值。

Transfer learning（迁移学习）

U

无标签样本（unlabeled example）

包含特征但没有标签的样本。无标签样本是推断的输入。在半监督学习和无监督学习的训练过程中，通常使用无标签样本。

无监督机器学习（unsupervised machine learning）

训练一个模型寻找数据集（通常是无标签数据集）中的模式。无监督机器学习最常用于将数据分成几组类似的样本。无监督机器学习的另一个例子是主成分分析（principal componentanalysis，PCA）

W

Word embedding（词嵌入）

Word sense disambiguation（词义消歧）

㈤平面内一点到另两点距离之和最小的求法

怎样“求空间内一点到其它所有点的距离之和友尘哗最小”？首先将这个问题形式化：
公式代码：
\min f(x,y) = \min \sum_i \sqrt {(x - x_i)^2 + (y - y_i)^2}
这里是距离之和，而不是平方和。Kmeans聚类中用的评价标准是平方和，如果只有一个类中心，那么可以直接求偏导得到使得平方和最小的点就是中心。这里问题与平方和的解是不是一样的，比如三角形到三个顶点距离之和最短的点就是费马点。
这里可以用最优化方法中的“搜索”来求解，这一系列方法包括了梯度下降法、牛顿法和共轭梯度法等。在这里用梯度下降法是最简单的，通过这个例子我也明白了为什么实际运用中梯度下降法是应用最广的。相比梯度下降法，牛顿法需要求Hesse矩阵，还是相对麻烦不少。梯度下降法搜索步骤就是每一步都向导数的逆方向将自变量前进一个步长（可变），在这里导数方向就是

公式代码：
abla f(x,y) =
\left[
\begin{array} {lcr}
\displaystyle \sum_i \frac{x - x_i}{\sqrt{(x - x_i)^2 + (y - y_i)^2pan >}} \\
\displaystyle \sum_i \frac{y - y_i}{\sqrt{(x - x_i)^2 + (y - y_i)^2}}
\end{array}
\right]
梯度下兄裂降法也有它使用起来让人比较为难的地方，那就是步长很难选取，课本上所给出的例子一般都是针对较简单表达式提出的可变步长计算。在本问题的求解中为简单起见，步长是取的定值。整个过程用Python3实现（起初想用R来做，但是R没法调试……归根结底还是功力不够）实现，结合了scipy和matplotlib两个好行包，结果看起来还是比较靠谱：

最后附上源代码：
Python 3语言: 高亮代码由发芽网提供
from scipy import *
import pylab
def f(p, pts):
return sum(sum((p - pts) ** 2, axis=1) ** 0.5)
def fd(p, pts):
dx = sum((p[0] - pts[:, 0]) / sum((p - pts) ** 2, axis=1) ** 0.5)
dy = sum((p[1] - pts[:, 1]) / sum((p - pts) ** 2, axis=1) ** 0.5)
s = (dx ** 2 + dy ** 2) ** 0.5
br> dx /= s
dy /= s
return array([dx, dy])

pts = rand(10, 2)
x = array([0, 0])
t = 0.1
xstep = x
for k in range(100):
y = f(x, pts)
xk = x - t * fd(x, pts)
yk = f(xk, pts)
if y - yk > 1e-8:
x = xk
y = yk
elif yk - y > 1e-8:
t *= 0.5
else:
break
xstep = vstack((xstep, x))
print(x, y)
pylab.plot(pts[:, 0], pts[:, 1], 'bo')
pylab.plot(xstep[:, 0], xstep[:, 1], 'ro')
pylab.plot(xstep[:, 0], xstep[:, 1], 'k-')
pylab.xlabel('iter = %d, Min = %.3f, p = (%.3f, %.3f), t = %f' % (k, y, x[0], x[1], t))
pylab.show()

㈥ Python怎么做最优化

一、概观
scipy中的optimize子包中提供了常用的最优化算法函数实现。我们可以直接调用这些函数完成我们的优化问题。optimize中函数最典型的特点就是能够从函数名称上看出是使用了什么算法。下面optimize包中函数的概览：
1.非线性最优化
fmin -- 简单Nelder-Mead算法
fmin_powell -- 改进型Powell法
fmin_bfgs -- 拟Newton法
fmin_cg -- 非线性共轭梯度法
fmin_ncg -- 线性搜索Newton共轭梯度法
leastsq -- 最小二乘
2.有约束的多元函数问题
fmin_l_bfgs_b ---使用L-BFGS-B算法
fmin_tnc ---梯度信息
fmin_cobyla ---线性逼近
fmin_slsqp ---序列最小二乘法
nnls ---解|| Ax - b ||_2 for x>=0
3.全局优化
anneal ---模拟退火算法
brute --强力法
4.标量函数
fminbound
brent
golden
bracket
5.拟合
curve_fit-- 使用非线性最小二乘法拟合
6.标量函数求根
brentq ---classic Brent (1973)
brenth ---A variation on the classic Brent（1980）ridder ---Ridder是提出这个算法的人名
bisect ---二分法
newton ---牛顿法
fixed_point
7.多维函数求根
fsolve ---通用
broyden1 ---Broyden’s first Jacobian approximation.
broyden2 ---Broyden’s second Jacobian approximationnewton_krylov ---Krylov approximation for inverse Jacobiananderson ---extended Anderson mixing
excitingmixing ---tuned diagonal Jacobian approximationlinearmixing ---scalar Jacobian approximationdiagbroyden ---diagonal Broyden Jacobian approximation8.实用函数
line_search ---找到满足强Wolfe的alpha值
check_grad ---通过和前向有限差分逼近比较检查梯度函数的正确性二、实战非线性最优化
fmin完整的调用形式是：
fmin(func, x0, args=(), xtol=0.0001, ftol=0.0001, maxiter=None, maxfun=None, full_output=0, disp=1, retall=0, callback=None)不过我们最常使用的就是前两个参数。一个描述优化问题的函数以及初值。后面的那些参数我们也很容易理解。如果您能用到，请自己研究。下面研究一个最简单的问题，来感受这个函数的使用方法：f(x)=x**2-4*x+8，我们知道，这个函数的最小值是4，在x=2的时候取到。
from scipy.optimize import fmin #引入优化包def myfunc(x):
return x**2-4*x+8 #定义函数
x0 = [1.3] #猜一个初值
xopt = fmin(myfunc, x0) #求解
print xopt #打印结果
运行之后，给出的结果是：
Optimization terminated successfully.
Current function value: 4.000000
Iterations: 16
Function evaluations: 32
[ 2.00001953]
程序准确的计算得出了最小值，不过最小值点并不是严格的2，这应该是由二进制机器编码误差造成的。
除了fmin_ncg必须提供梯度信息外，其他几个函数的调用大同小异，完全类似。我们不妨做一个对比：
from scipy.optimize import fmin,fmin_powell,fmin_bfgs,fmin_cgdef myfunc(x):
return x**2-4*x+8
x0 = [1.3]
xopt1 = fmin(myfunc, x0)
print xopt1
print
xopt2 = fmin_powell(myfunc, x0)
print xopt2
print
xopt3 = fmin_bfgs(myfunc, x0)
print xopt3
print
xopt4 = fmin_cg(myfunc,x0)
print xopt4
给出的结果是：
Optimization terminated successfully.
Current function value: 4.000000
Iterations: 16
Function evaluations: 32
[ 2.00001953]
Optimization terminated successfully.
Current function value: 4.000000
Iterations: 2
Function evaluations: 53
1.99999999997
Optimization terminated successfully.
Current function value: 4.000000
Iterations: 2
Function evaluations: 12
Gradient evaluations: 4
[ 2.00000001]
Optimization terminated successfully.
Current function value: 4.000000
Iterations: 2
Function evaluations: 15
Gradient evaluations: 5
[ 2.]
我们可以根据给出的消息直观的判断算法的执行情况。每一种算法数学上的问题，请自己看书学习。个人感觉，如果不是纯研究数学的工作，没必要搞清楚那些推导以及定理云云。不过，必须了解每一种算法的优劣以及能力所及。在使用的时候，不妨多种算法都使用一下，看看效果分别如何，同时，还可以互相印证算法失效的问题。
在from scipy.optimize import fmin之后，就可以使用help(fmin)来查看fmin的帮助信息了。帮助信息中没有例子，但是给出了每一个参数的含义说明，这是调用函数时候的最有价值参考。
有源码研究癖好的，或者当你需要改进这些已经实现的算法的时候，可能需要查看optimize中的每种算法的源代码。在这里：https:/ / github. com/scipy/scipy/blob/master/scipy/optimize/optimize.py聪明的你肯定发现了，顺着这个链接往上一级、再往上一级，你会找到scipy的几乎所有源码！

㈦ Python怎么做最优化

一、概观scipy中的optimize子包中提供了常用的最优化算法函数实现。我们可以直接调用这些函数完成我们的优化问题。optimize中函数最典型的特点就是能够从函数名称上看出是使用了什么算法。下面optimize包中函数的概览：1.非线性最优化fmin -- 简单Nelder-Mead算法fmin_powell -- 改进型Powell法fmin_bfgs -- 拟Newton法fmin_cg -- 非线性共轭梯度法fmin_ncg -- 线性搜索Newton共轭梯度法leastsq -- 最小二乘2.有约束的多元函数问题fmin_l_bfgs_b ---使用L-BFGS-B算法fmin_tnc ---梯度信息fmin_cobyla ---线性逼近fmin_slsqp ---序列最小二乘法nnls ---解|| Ax - b ||_2 for x=03.全局优化anneal ---模拟退火算法brute --强力法4.标量函数fminboundbrentgoldenbracket5.拟合curve_fit-- 使用非线性最小二乘法拟合6.标量函数求根brentq ---classic Brent (1973)brenth ---A variation on the classic Brent（1980）ridder ---Ridder是提出这个算法的人名bisect ---二分法newton ---牛顿法fixed_point7.多维函数求根fsolve ---通用broyden1 ---Broyden’s first Jacobian approximation.broyden2 ---Broyden’s second Jacobian approximationnewton_krylov ---Krylov approximation for inverse Jacobiananderson ---extended Anderson mixingexcitingmixing ---tuned diagonal Jacobian approximationlinearmixing ---scalar Jacobian approximationdiagbroyden ---diagonal Broyden Jacobian approximation8.实用函数line_search ---找到满足强Wolfe的alpha值check_grad ---通过和前向有限差分逼近比较检查梯度函数的正确性二、实战非线性最优化fmin完整的调用形式是：fmin(func, x0, args=(), xtol=0.0001, ftol=0.0001, maxiter=None, maxfun=None, full_output=0, disp=1, retall=0, callback=None)不过我们最常使用的就是前两个参数。一个描述优化问题的函数以及初值。后面的那些参数我们也很容易理解。如果您能用到，请自己研究。下面研究一个最简单的问题，来感受这个函数的使用方法：f(x)=x**2-4*x+8，我们知道，这个函数的最小值是4，在x=2的时候取到。from scipy.optimize import fmin #引入优化包def myfunc(x):return x**2-4*x+8 #定义函数x0 = [1.3] #猜一个初值xopt = fmin(myfunc, x0) #求解print xopt #打印结果运行之后，给出的结果是：Optimization terminated successfully.Current function value: 4.000000Iterations: 16Function evaluations: 32[ 2.00001953]程序准确的计算得出了最小值，不过最小值点并不是严格的2，这应该是由二进制机器编码误差造成的。除了fmin_ncg必须提供梯度信息外，其他几个函数的调用大同小异，完全类似。我们不妨做一个对比：from scipy.optimize import fmin,fmin_powell,fmin_bfgs,fmin_cgdef myfunc(x):return x**2-4*x+8x0 = [1.3]xopt1 = fmin(myfunc, x0)print xopt1printxopt2 = fmin_powell(myfunc, x0)print xopt2printxopt3 = fmin_bfgs(myfunc, x0)print xopt3printxopt4 = fmin_cg(myfunc,x0)print xopt4给出的结果是：Optimization terminated successfully.Current function value: 4.000000Iterations: 16Function evaluations: 32[ 2.00001953]Optimization terminated successfully.Current function value: 4.000000Iterations: 2Function evaluations: 531.99999999997Optimization terminated successfully.Current function value: 4.000000Iterations: 2Function evaluations: 12Gradient evaluations: 4[ 2.00000001]Optimization terminated successfully.Current function value: 4.000000Iterations: 2Function evaluations: 15Gradient evaluations: 5[ 2.]我们可以根据给出的消息直观的判断算法的执行情况。每一种算法数学上的问题，请自己看书学习。个人感觉，如果不是纯研究数学的工作，没必要搞清楚那些推导以及定理云云。不过，必须了解每一种算法的优劣以及能力所及。在使用的时候，不妨多种算法都使用一下，看看效果分别如何，同时，还可以互相印证算法失效的问题。在from scipy.optimize import fmin之后，就可以使用help(fmin)来查看fmin的帮助信息了。帮助信息中没有例子，但是给出了每一个参数的含义说明，这是调用函数时候的最有价值参考。有源码研究癖好的，或者当你需要改进这些已经实现的算法的时候，可能需要查看optimize中的每种算法的源代码。在这里：https:/ / github. com/scipy/scipy/blob/master/scipy/optimize/optimize.py聪明的你肯定发现了，顺着这个链接往上一级、再往上一级，你会找到scipy的几乎所有源码！

㈧ deep dream算法怎样玩

SVM方面，首选的肯定是libsvm这个库，应该是应用最广的机器学习库了。
下面主要推荐一些DeepLearning的GitHub项目吧！
1. convnetjs - star:2200+
实现了卷积神经网络，可以用来做分类，回归，强化学习等。
2. DeepLearn Toolbox - star:1000+
Matlab实现中最热的库存，包括了cnn,DBN,sae,cae等主流模型裤穗。
3. Deep Learning(yusugomo) - star:800+
实现了深度学习网络，从算法与实宽纯激现上都比较全，提供了5种语言的实现：Python,C/C++,Java,Scala，实现的模型有DBN/CDBN/RBM/CRBM/dA/SdA/lr等。
4. Neural-Networks-And-Deep-Learning - star:500+
这是同名书的配慎袜套代码，语言是Python。
5. rbm-mnist - Star:200+
这个是hinton matlab代码的C++改写版，还实现了Rasmussen的共轭梯度Conjugate Gradient算法。

㈨ cnn卷积神经网络用什么语言来写pascial

200+
这个是hinton matlab代码的C++改写版. convnetjs - Star,SAE，首选的肯定是LIBSVM这个库;RBM#47. DeepLearn Toolbox - Star，包括了CNN;C++SVM方面,Java。
2。
下面主要一些DeepLearning的GitHub项目吧;SdA#47:2200+
实现了卷积神经网络，还实现了Rasmussen的共轭梯度Conjugate Gradient算法,DBN,C/CRBM/CDBN#47：Python。
3,CAE等主流模型，实现的模型有DBN#47，可以用来做分类，语言是Python;LR等，从算法与实现上都比较全:800+
实现了深度学习网络. rbm-mnist - Star，应该是应用最广的机器学习库了，强化学习等. Deep Learning(yusugomo) - Star,Scala:1000+
Matlab实现中最热的库存，提供了5种语言的实现。
5;dA#47:500+
这是同名书的配套代码。
4. Neural-Networks-And-Deep-Learning - Star！
1，回归

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1091

制作脚本网站发布：2025-10-20 08:17:34 浏览：1369

python中的init方法发布：2025-10-20 08:17:33 浏览：1054

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1230

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1098

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1449

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：656

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：551

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1228

python股票数据获取发布：2025-10-20 07:39:44 浏览：1254

python共轭梯度

与python共轭梯度相关的资讯