多元线性回归算法
Ⅰ 线性回归算法原理(越详细越好)
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛。
分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
我们以一简单数据组来说明什么是线性回归。假设有一组数据型态为y=y(x),其中
x={0,1,2,3,4,5},y={0,20,60,68,77,110}
如果我们要以一个最简单的方程式来近似这组数据,则非一阶的线性方程式莫属。先将这组数据绘图如下
图中的斜线是我们随意假设一阶线性方程式y=20x,用以代表这些数据的一个方程式。以下将上述绘图的MATLAB指令列出,并计算这个线性方程式的y值与原数据y值间误差平方的总合。
>>x=[012345];
>>y=[020606877110];
>>y1=20*x;%一阶线性方程式的y1值
>>sum_sq=sum(y-y1).^2);%误差平方总合为573
>>axis([-1,6,-20,120])
>>plot(x,y1,x,y,'o'),title('Linearestimate'),grid
如此任意的假设一个线性方程式并无根据,如果换成其它人来设定就可能采用不同的线性方程式;所以我们须要有比较精确方式决定理想的线性方程式。我们可以要求误差平方的总合为最小,做为决定理想的线性方程式的准则,这样的方法就称为最小平方误差(leastsquareserror)或是线性回归。MATLAB的polyfit函数提供了从一阶到高阶多项式的回归法,其语法为polyfit(x,y,n),其中x,y为输入数据组n为多项式的阶数,n=1就是一阶的线性回归法。polyfit函数所建立的多项式可以写成
从polyfit函数得到的输出值就是上述的各项系数,以一阶线性回归为例n=1,所以只有二个输出值。如果指令为coef=polyfit(x,y,n),则coef(1)=,coef(2)=,...,coef(n+1)=。注意上式对n阶的多项式会有n+1项的系数。我们来看以下的线性回归的示范:
>>x=[012345];
>>y=[020606877110];
>>coef=polyfit(x,y,1);%coef代表线性回归的二个输出值
>>a0=coef(1);a1=coef(2);
>>ybest=a0*x+a1;%由线性回归产生的一阶方程式
>>sum_sq=sum(y-ybest).^2);%误差平方总合为356.82
>>axis([-1,6,-20,120])
>>plot(x,ybest,x,y,'o'),title('Linearregressionestimate'),grid
[编辑本段]线性回归拟合方程
一般来说,线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线,其经验拟合方程如下:
Ⅱ 线性回归方程公式
简单线性回归方程,可以表示为下图:
线性回归方程是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一。线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
Ⅲ 多元线性回归,主成分回归和偏最小二乘回归的联系与区别
做多元线性回归分析的时候,有可能存在多重共线性的情况,为了消除多重共线性对回归模型的影响,通常可以采用主成分回归和偏最小二乘法来提高估计量的稳定性。主成分回归是对数据做一个正交旋转变换,变换后的变量都是正交的。(有时候为了去除量纲的影响,会先做中心化处理)。偏最小二乘回归相当于包含了主成分分析、典型相关分析的思想,分别从自变量与因变量中提取成分T,U(偏最小二乘因子),保证T,U能尽可能多的提取所在变量组的变异信息,同时还得保证两者之间的相关性最大。偏最小二乘回归较主成分回归的优点在于,偏最小二乘回归可以较好的解决样本个数少于变量个数的问题,并且除了考虑自变量矩阵外,还考虑了响应矩阵。
Ⅳ matlab多元线性回归
y=[320 320 160 710 320 320 320 160 710 320];
x1=[2.3 1.7 1.3 1.7 1.7 1.6 1 1.7 1.7 1.7];
x2=[2.3 1.7 1.7 1.6 1.7 1.7 1 1.7 1.7 1.7];
x3=[2.3 1.7 1.3 1.7 1.7 1.7 2 1.7 1.7 1.7];
x4=[2.3 1.7 1.7 1.7 1.7 1.7 1 1.7 1.8 2.7];
x5=[2.3 1.7 1.7 1.3 1.7 1.4 1 1.7 1.7 1.7];
x6=[2.3 1.7 1.7 1.7 1.5 1.7 1 1.7 1.7 1.7];
x7=[2.3 1.7 1.7 1.7 1.7 1.4 1 1.7 1.7 1.7];
x8=[2.3 1.7 1.7 1.7 1.7 1.7 1 1.7 1.7 1.7];
x9=[2.3 1.7 1.7 1.4 1.7 1.7 1 1.7 1.7 1.7];
x10=[2.3 1.7 1.7 1.7 1.5 1.7 1 1.7 1.7 1.7];
Y=y';
X=[ones(length(y),1),x1',x2',x3',x4',x5',x6',x7',x8',x9',x10'];
[b,bint,r,rint,stats]=regress(Y,X)
Ⅳ 多元线性回归标准误差多少算正常
回归标准误差小于0.5算正常
回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)进行预测
回归算法(模型):用平均值,期望,方差,标准差进行预测估计
回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
通过指数来进行判断即可,线性就是每个变量的指数都是1(一次方),为直线形态,而非线性就是至少有一个变量的指数不是1(二次方或多次方),为曲线形态。
一元线性回归:
若X与Y之间存在着较强的相关关系,则我们有Y≈α+βX
若α与β的值已知,则给出相应的X值,我们可以根据Y≈α+βX得到相应的Y的预测值
Ⅵ 多元线性回归为什么不用最小化残差四次方,而是用最小化残差平方和
个人理解,因为平方和开根号,对应空间距离的概念。也就是说最小化残差平方和,相当于最小化回归曲线与各点的距离,有更好的直观意义。当然如果最小化残差四次方我认为也是可以的,虽然回归结果不同,但也是一种近似解。另外,从计算复杂度来讲,最小化平方比最小化四次方简单,所以没必要最小化四次方。当然奇数次方肯定不行,至少也得是绝对值,但这样又不如直接计算二次方简单。所以,从计算简单上来讲,最简单能达到目的的算法,也就是二次方之和了
Ⅶ 多元线性回归的举例
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。
但由于各个自变量的单位可能不一样,比如说一个消费水平的关系式中,工资水平、受教育程度、职业、地区、家庭负担等等因素都会影响到消费水平,而这些影响因素(自变量)的单位显然是不同的,因此自变量前系数的大小并不能说明该因素的重要程度,更简单地来说,同样工资收入,如果用元为单位就比用百元为单位所得的回归系数要小,但是工资水平对消费的影响程度并没有变,所以得想办法将各个自变量化到统一的单位上来。前面学到的标准分就有这个功能,具体到这里来说,就是将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。这时的回归方程称为标准回归方程,回归系数称为标准回归系数,表示如下:
Zy= β1Z*1 + β2Z*2 + … + βkZ*k 1、普通最小二乘法(Ordinary Least Square, OLS)
普通最小二乘法通过最小化误差的平方和寻找最佳函数。
通过矩阵运算求解系数矩阵
2、广义最小二乘法(Generalized Least Square)
广义最小二乘法是普通最小二乘法的拓展,它允许在误差项存在异方差或自相关,或二者皆有时获得有效的系数估计值。
其中,Ω是残差项的协方差矩阵 SPSS(Statistical Package for the Social Science)--社会科学统计软件包是世界着名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。同时SPSS公司推行本土化策略,目前已推出9个语种版本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。目前已经在国内逐渐流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。和国际上几种统计分析软件比较,它的优越性更加突出。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计中,其诸项功能均获得最高分 。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。最新的14.0版采用DAA(Distributed AnalysisArchitechture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,依靠于诸多竞争对手。但是它很难与一般办公软件如Office或是WPS2000直接兼容,在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表,已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SAS和BMDP相比仍有一定欠缺。
虽然如此,SPSS for Windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。
Matlab、spss、SAS等软件都是进行多元线性回归的常用软件。
Ⅷ 请教多元线性回归C++算法或程序
多元线性回归C++程序:
Dim a() As String, b() As String
Private Sub Command1_Click()
Dim temp1 As String
Dim i As Integer, k As Integer
temp1 = Text1.Text
a = Split(temp1, ",")
lenolds = Len("->")
For i = 0 To UBound(a)
s = a(i)
j = InStr(s, "->")
Do While j > 0
ReDim Preserve b(i, k)
b(i, k) = Val(Left(s, j + lenolds))
s = Left(s, j - 1) + "->" + Mid(s, j + lenolds + 1)
k = k + 1
j = InStr(s, "->")
Loop
ReDim Preserve b(i, k)
b(i, k) = s
Next i
For i = 0 To UBound(a)
For j = 0 To k
Text2.Text = Text2.Text + b(i, j)
Next j
Next i
End Sub
Ⅸ matlab,有哪些是线性回归算法!
2015a版的matlab有如下的线形回归算法。
方法名 函数名 说明
1.多元线性回归 fitlm 具有多个预测变量的线性回归
2.逐步回归 stepwise 交互式逐步回归
3多目标的多元线性回归 mvregress 使用多变量输出的线性回归
4有正则化的多元线性回归 lasso 使用弹性网正则化的多元线性回归
5有正则化的多元线性回归 ridge Ridge回归