当前位置:首页 » 操作系统 » 算法分析文章

算法分析文章

发布时间: 2023-02-22 23:24:43

‘壹’ 决策树算法-原理篇

关于决策树算法,我打算分两篇来讲,一篇讲思想原理,另一篇直接撸码来分析算法。本篇为原理篇。
通过阅读这篇文章,你可以学到:
1、决策树的本质
2、决策树的构造过程
3、决策树的优化方向

决策树根据使用目的分为:分类树和回归树,其本质上是一样的。本文只讲分类树。

决策树,根据名字来解释就是,使用树型结构来模拟决策。
用图形表示就是下面这样。

其中椭圆形代表:特征或属性。长方形代表:类别结果。
面对一堆数据(含有特征和类别),决策树就是根据这些特征(椭圆形)来给数据归类(长方形)
例如,信用贷款问题,我根据《神奇动物在哪里》的剧情给银行造了个决策树模型,如下图:

然而,决定是否贷款可以根据很多特征,然麻鸡银行选择了:(1)是否房产价值>100w;(2)是否有其他值钱的抵押物;(3)月收入>10k;(4)是否结婚;这四个特征,来决定是否给予贷款。
先不管是否合理,但可以肯定的是,决策树做了特征选择工作,即选择出类别区分度高的特征。

由此可见, 决策树其实是一种特征选择方法。 (特征选择有多种,决策树属于嵌入型特征选择,以后或许会讲到,先给个图)即选择区分度高的特征子集。

那么, 从特征选择角度来看决策树,决策树就是嵌入型特征选择技术

同时,决策树也是机器学习中经典分类器算法,通过决策路径,最终能确定实例属于哪一类别。
那么, 从分类器角度来看决策树,决策树就是树型结构的分类模型

从人工智能知识表示法角度来看,决策树类似于if-then的产生式表示法。
那么, 从知识表示角度来看决策树,决策树就是if-then规则的集合

由上面的例子可知,麻鸡银行通过决策树模型来决定给哪些人贷款,这样决定贷款的流程就是固定的,而不由人的主观情感来决定。
那么, 从使用者角度来看决策树,决策树就是规范流程的方法

最后我们再来看看决策树的本质是什么已经不重要了。
决策树好像是一种思想,而通过应用在分类任务中从而成就了“决策树算法”。

下面内容还是继续讲解用于分类的“决策树算法”。

前面讲了决策树是一种 特征选择技术

既然决策树就是一种特征选择的方法,那么经典决策树算法其实就是使用了不同的特征选择方案。
如:
(1)ID3:使用信息增益作为特征选择
(2)C4.5:使用信息增益率作为特征选择
(3)CART:使用GINI系数作为特征选择
具体选择的方法网上一大把,在这里我提供几个链接,不细讲。

但,不仅仅如此。
决策树作为嵌入型特征选择技术结合了特征选择和分类算法,根据特征选择如何生成分类模型也是决策树的一部分。
其生成过程基本如下:

根据这三个步骤,可以确定决策树由:(1)特征选择;(2)生成方法;(3)剪枝,组成。
决策树中学习算法与特征选择的关系如下图所示:

原始特征集合T:就是包含收集到的原始数据所有的特征,例如:麻瓜银行收集到与是否具有偿还能力的所有特征,如:是否结婚、是否拥有100w的房产、是否拥有汽车、是否有小孩、月收入是否>10k等等。
中间的虚线框就是特征选择过程,例如:ID3使用信息增益、C4.5使用信息增益率、CART使用GINI系数。
其中评价指标(如:信息增益)就是对特征的要求,特征需要满足这种条件(一般是某个阈值),才能被选择,而这一选择过程嵌入在学习算法中,最终被选择的特征子集也归到学习算法中去。
这就是抽象的决策树生成过程,不论哪种算法都是将这一抽象过程的具体化。
其具体算法我将留在下一篇文章来讲解。

而决策树的剪枝,其实用得不是很多,因为很多情况下随机森林能解决决策树带来的过拟合问题,因此在这里也不讲了。

决策树的优化主要也是围绕决策树生成过程的三个步骤来进行优化的。
树型结构,可想而知,算法效率决定于树的深度,优化这方面主要从特征选择方向上优化。
提高分类性能是最重要的优化目标,其主要也是特征选择。
面对过拟合问题,一般使用剪枝来优化,如:李国和基于决策树生成及剪枝的数据集优化及其应用。
同时,决策树有很多不足,如:多值偏向、计算效率低下、对数据空缺较为敏感等,这方面的优化也有很多,大部分也是特征选择方向,如:陈沛玲使用粗糙集进行特征降维。
由此,决策树的优化方向大多都是特征选择方向,像ID3、C4.5、CART都是基于特征选择进行优化。

参考文献
统计学习方法-李航
特征选择方法综述-李郅琴
决策树分类算法优化研究_陈沛玲
基于决策树生成及剪枝的数据集优化及其应用-李国和

‘贰’ 数学建模算法总结

无总结反省则无进步

写这篇文章,一是为了总结之前为了准备美赛而学的算法,而是将算法罗列并有几句话解释方便以后自己需要时来查找。

数学建模问题总共分为四类:

1. 分类问题 2. 优化问题 3. 评价问题 4. 预测问题

我所写的都是基于数学建模算法与应用这本书

一 优化问题

线性规划与非线性规划方法是最基本经典的:目标函数与约束函数的思想

现代优化算法:禁忌搜索;模拟退火;遗传算法;人工神经网络

模拟退火算法:

简介:材料统计力学的研究成果。统计力学表明材料中不同结构对应于粒子的不同能量水平。在高温条件下,粒子的能量较高,可以自由运动和重新排列。在低温条件下,粒子能量较低。如果从高温开始,非常缓慢地降温(此过程称为退火),粒子就可以在每个温度下达到热平衡。当系统完全被冷却时,最终形成处于低能状态的晶体。

思想可用于数学问题的解决 在寻找解的过程中,每一次以一种方法变换新解,再用退火过程的思想,以概率接受该状态(新解) 退火过程:概率转化,概率为自然底数的能量/KT次方

遗传算法: 遗传算法是一种基于自然选择原理和自然遗传机制的搜索算法。模拟自然界中的生命进化机制,在人工系统中实现特定目标的优化。

遗传算法的实质是通过群体搜索技术(?),根据适者生存的原则逐代进化,最终得到最优解或准最优解。

具体实现过程(P329~331)

* 编码

* 确定适应度函数(即目标函数)

* 确定进化参数:群体规模M,交叉概率Pc,变异概率Pm,进化终止条件

* 编码

* 确定初始种群,使用经典的改良圈算法

* 目标函数

* 交叉操作

* 变异操作

* 选择

改良的遗传算法

两点改进 :交叉操作变为了以“门当户对”原则配对,以混乱序列确定较差点位置 变异操作从交叉操作中分离出来

二 分类问题(以及一些多元分析方法)

* 支持向量机SVM

* 聚类分析

* 主成分分析

* 判别分析

* 典型相关分析

支持向量机SVM: 主要思想:找到一个超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远

聚类分析(极其经典的一种算法): 对样本进行分类称为Q型聚类分析 对指标进行分类称为R型聚类分析

基础:样品相似度的度量——数量化,距离——如闵氏距离

主成分分析法: 其主要目的是希望用较少的变量去解释原来资料中的大部分变异,将掌握的许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,及主成分。实质是一种降维方法

判别分析: 是根据所研究的个体的观测指标来推断个体所属类型的一种统计方法。判别准则在某种意义下是最优的,如错判概率最小或错判损失最小。这一方法像是分类方法统称。 如距离判别,贝叶斯判别和FISHER判别

典型相关分析: 研究两组变量的相关关系 相对于计算全部相关系数,采用类似主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系

三 评价与决策问题

评价方法分为两大类,区别在于确定权重上:一类是主观赋权:综合资讯评价定权;另一类为客观赋权:根据各指标相关关系或各指标值变异程度来确定权数

* 理想解法

* 模糊综合评判法

* 数据包络分析法

* 灰色关联分析法

* 主成分分析法(略)

* 秩和比综合评价法 理想解法

思想:与最优解(理想解)的距离作为评价样本的标准

模糊综合评判法 用于人事考核这类模糊性问题上。有多层次模糊综合评判法。

数据包络分析法 是评价具有多指标输入和多指标输出系统的较为有效的方法。是以相对效率为概念基础的。

灰色关联分析法 思想:计算所有待评价对象与理想对象的灰色加权关联度,与TOPSIS方法类似

主成分分析法(略)

秩和比综合评价法 样本秩的概念: 效益型指标从小到大排序的排名 成本型指标从大到小排序的排名 再计算秩和比,最后统计回归

四 预测问题

* 微分方程模型

* 灰色预测模型

* 马尔科夫预测

* 时间序列(略)

* 插值与拟合(略)

* 神经网络

微分方程模型 Lanchester战争预测模型。。

灰色预测模型 主要特点:使用的不是原始数据序列,而是生成的数据序列 优点:不需要很多数据·,能利用微分方程来充分挖掘系统的本质,精度高。能将无规律的原始数据进行生成得到规律性较强的生成序列。 缺点:只适用于中短期预测,只适合指数增长的预测

马尔科夫预测 某一系统未来时刻情况只与现在状态有关,与过去无关。

马尔科夫链

时齐性的马尔科夫链

时间序列(略)

插值与拟合(略)

神经网络(略)

‘叁’ 算法与程序设计论文3000字

1、论点(证明什么)论点应该是作者看法的完整表述,在形式上是个完整的简洁明确的句子。从全文看,它必能统摄全文。表述形式往往是个表示肯定或否定的判断句,是明确的表态性的句子。
A.把握文章的论点。 中心论点只有一个(统率分论点)⑴明确:分论点可以有N个(补充和证明中心论点)
⑵方法①从位置上找:如标题、开篇、中间、结尾。②分析文章的论据。(可用于检验预想的论点是否恰当)③摘录法(只有分论点,而无中心论点)
B.分析论点是怎样提出的:①摆事实讲道理后归结论点;②开门见山,提出中心论点;③针对生活中存在的现象,提出论题,通过分析论述,归结出中心论点;④叙述作者的一段经历后,归结出中心论点;⑤作者从故事中提出问题,然后一步步分析推论,最后得出结论,提出中心论点。
2、论据(用什么证明)⑴论据的类型:①事实论据(举例后要总结,概述论据要紧扣论点);②道理论据(引用名言要分析)。
⑵论据要真实、可靠,典型(学科、国别、古今等)。⑶次序安排(照应论点);⑷判断论据能否证明论点;⑸补充论据(要能证明论点)。
3、论证(怎样证明)
⑴论证方法 (须为四个字)①举例论证(例证法)事实论据记叙②道理论证(引证法和说理)道理论据 议论
③对比论证(其本身也可以是举例论证和道理论证)④比喻论证 比喻在说明文中为打比方,散文中为比喻。
⑵分析论证过程:①论点是怎样提出的;②论点是怎样被证明的(用了哪些道理和事实,是否有正反两面的分析说理);③联系全文的结构,是否有总结。
⑶论证的完整性(答:使论证更加全面完整,避免产生误解)
⑷分析论证的作用:证明该段的论点。
4、议论文的结构⑴一般形式:①引论(提出问题)―――②本论(分析问题)―――③结论(解决问题)。
⑵类型:①并列式②总分总式③总分式④分总式⑤递进式。
6、驳论文的阅读
⑴作者要批驳的错误观点是什么?
⑵作者是怎样进行批驳的,用了哪些道理和论据;
⑶由此,作者树立的正确的观点是什么?

热点内容
怎么电脑密码 发布:2025-08-10 23:03:53 浏览:737
虚拟机下安装linux 发布:2025-08-10 23:02:21 浏览:761
有哪些配置好车 发布:2025-08-10 22:57:19 浏览:905
我的世界冷小坏服务器 发布:2025-08-10 22:51:59 浏览:956
windows下编译php扩展 发布:2025-08-10 22:43:53 浏览:726
链表反转c语言 发布:2025-08-10 22:43:40 浏览:285
c语言求两数之和 发布:2025-08-10 22:37:08 浏览:774
phptype 发布:2025-08-10 22:29:23 浏览:902
ios和android区别 发布:2025-08-10 22:24:00 浏览:832
安卓host是什么意思 发布:2025-08-10 22:23:09 浏览:457