二分类算法

发布时间: 2022-10-28 17:35:10

A. 哪些机器学习算法可以处理多分类

maxsoft作为logistics二分类的改进版，天生适合多分类；神经网络(如bp神经网络，随机权神经网络，RBF神经网络等)；通过建立多个支持向量机或者最小二乘支持向量机分类模型，通过投票算法选择概率最大的分类标签；也可以通过聚类算法(KNN，kMeans等)等无监督学习算法实现分类。
朴素贝叶斯分类器算法是最受欢迎的学习方法之一，按照相似性分类，用流行的贝叶斯概率定理来建立机器学习模型，特别是用于疾病预测和文档分类。它是基于贝叶斯概率定理的单词的内容的主观分析的简单分类。
如果特征数量远大于训练样本数，则使用逻辑回归或线性核方法的SVM。
如果特征数较小，而样本数量相对较多，可以考虑高斯核方法的SVM。
如果特征数少儿样本数极大，可以考虑增加一些特征，再使用逻辑回归或线性核方法的SVM
神经网络则对上述情况都可适用，但训练时间较长。

想要学习了解更多机器学习的信息，推荐CDA数据分析师课程。CDA 与国际知名考试服务机构 Pearson VUE 合作,认证考点覆盖全球。课程内容综合使用统计分析方法、统计模型、运筹学、机器学习、文本挖掘算法，而非单一的机器学习算法。点击预约免费试听课。

B. 机器学习新手必看十大算法

机器学习新手必看十大算法
本文介绍了机器学习新手需要了解的 10 大算法，包括线性回归、Logistic 回归、朴素贝叶斯、K 近邻算法等。
在机器学习中，有一种叫做“没有免费的午餐”的定理。简而言之，它指出没有任何一种算法对所有问题都有效，在监督学习(即预测建模)中尤其如此。
例如，你不能说神经网络总是比决策树好，反之亦然。有很多因素在起作用，例如数据集的大小和结构。
因此，你应该针对具体问题尝试多种不同算法，并留出一个数据“测试集”来评估性能、选出优胜者。
当然，你尝试的算法必须适合你的问题，也就是选择正确的机器学习任务。打个比方，如果你需要打扫房子，你可能会用吸尘器、扫帚或拖把，但是你不会拿出铲子开始挖土。
大原则
不过也有一个普遍原则，即所有监督机器学习算法预测建模的基础。
机器学习算法被描述为学习一个目标函数 f，该函数将输入变量 X 最好地映射到输出变量 Y：Y = f(X)
这是一个普遍的学习任务，我们可以根据输入变量 X 的新样本对 Y 进行预测。我们不知道函数 f 的样子或形式。如果我们知道的话，我们将会直接使用它，不需要用机器学习算法从数据中学习。
最常见的机器学习算法是学习映射 Y = f(X) 来预测新 X 的 Y。这叫做预测建模或预测分析，我们的目标是尽可能作出最准确的预测。
对于想了解机器学习基础知识的新手，本文将概述数据科学家使用的 top 10 机器学习算法。
1. 线性回归
线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。
预测建模主要关注最小化模型误差或者尽可能作出最准确的预测，以可解释性为代价。我们将借用、重用包括统计学在内的很多不同领域的算法，并将其用于这些目的。
线性回归的表示是一个方程，它通过找到输入变量的特定权重(称为系数 B)，来描述一条最适合表示输入变量 x 与输出变量 y 关系的直线。
线性回归
例如：y = B0 + B1 * x
我们将根据输入 x 预测 y，线性回归学习算法的目标是找到系数 B0 和 B1 的值。
可以使用不同的技术从数据中学习线性回归模型，例如用于普通最小二乘法和梯度下降优化的线性代数解。
线性回归已经存在了 200 多年，并得到了广泛研究。使用这种技术的一些经验是尽可能去除非常相似(相关)的变量，并去除噪音。这是一种快速、简单的技术，可以首先尝试一下。
2. Logistic 回归
Logistic 回归是机器学习从统计学中借鉴的另一种技术。它是解决二分类问题的首选方法。
Logistic 回归与线性回归相似，目标都是找到每个输入变量的权重，即系数值。与线性回归不同的是，Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。
logistic 函数看起来像一个大的 S，并且可以将任何值转换到 0 到 1 的区间内。这非常实用，因为我们可以规定 logistic 函数的输出值是 0 和 1(例如，输入小于 0.5 则输出为 1)并预测类别值。
Logistic 回归
由于模型的学习方式，Logistic 回归的预测也可以作为给定数据实例(属于类别 0 或 1)的概率。这对于需要为预测提供更多依据的问题很有用。
像线性回归一样，Logistic 回归在删除与输出变量无关的属性以及非常相似(相关)的属性时效果更好。它是一个快速的学习模型，并且对于二分类问题非常有效。
3. 线性判别分析(LDA)
Logistic 回归是一种分类算法，传统上，它仅限于只有两类的分类问题。如果你有两个以上的类别，那么线性判别分析是首选的线性分类技术。
LDA 的表示非常简单直接。它由数据的统计属性构成，对每个类别进行计算。单个输入变量的 LDA 包括：
每个类别的平均值;
所有类别的方差。
线性判别分析
进行预测的方法是计算每个类别的判别值并对具备最大值的类别进行预测。该技术假设数据呈高斯分布(钟形曲线)，因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。
4. 分类与回归树
决策树是预测建模机器学习的一种重要算法。
决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树，没什么特别的。每个节点代表一个单独的输入变量 x 和该变量上的一个分割点(假设变量是数字)。
决策树
决策树的叶节点包含一个用于预测的输出变量 y。通过遍历该树的分割点，直到到达一个叶节点并输出该节点的类别值就可以作出预测。
决策树学习速度和预测速度都很快。它们还可以解决大量问题，并且不需要对数据做特别准备。
5. 朴素贝叶斯
朴素贝叶斯是一个简单但是很强大的预测建模算法。
该模型由两种概率组成，这两种概率都可以直接从训练数据中计算出来：1)每个类别的概率;2)给定每个 x 的值，每个类别的条件概率。一旦计算出来，概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时，通常假设一个高斯分布(钟形曲线)，这样你可以简单的估计这些概率。
贝叶斯定理
朴素贝叶斯之所以是朴素的，是因为它假设每个输入变量是独立的。这是一个强大的假设，真实的数据并非如此，但是，该技术在大量复杂问题上非常有用。
6. K 近邻算法
KNN 算法非常简单且有效。KNN 的模型表示是整个训练数据集。是不是很简单?
KNN 算法在整个训练集中搜索 K 个最相似实例(近邻)并汇总这 K 个实例的输出变量，以预测新数据点。对于回归问题，这可能是平均输出变量，对于分类问题，这可能是众数(或最常见的)类别值。
诀窍在于如何确定数据实例间的相似性。如果属性的度量单位相同(例如都是用英寸表示)，那么最简单的技术是使用欧几里得距离，你可以根据每个输入变量之间的差值直接计算出来其数值。
K 近邻算法
KNN 需要大量内存或空间来存储所有数据，但是只有在需要预测时才执行计算(或学习)。你还可以随时更新和管理训练实例，以保持预测的准确性。
距离或紧密性的概念可能在非常高的维度(很多输入变量)中会瓦解，这对算法在你的问题上的性能产生负面影响。这被称为维数灾难。因此你最好只使用那些与预测输出变量最相关的输入变量。
7. 学习向量量化
K 近邻算法的一个缺点是你需要遍历整个训练数据集。学习向量量化算法(简称 LVQ)是一种人工神经网络算法，它允许你选择训练实例的数量，并精确地学习这些实例应该是什么样的。
学习向量量化
LVQ 的表示是码本向量的集合。这些是在开始时随机选择的，并逐渐调整以在学习算法的多次迭代中最好地总结训练数据集。在学习之后，码本向量可用于预测(类似 K 近邻算法)。最相似的近邻(最佳匹配的码本向量)通过计算每个码本向量和新数据实例之间的距离找到。然后返回最佳匹配单元的类别值或(回归中的实际值)作为预测。如果你重新调整数据，使其具有相同的范围(比如 0 到 1 之间)，就可以获得最佳结果。
如果你发现 KNN 在你的数据集上达到很好的结果，请尝试用 LVQ 减少存储整个训练数据集的内存要求。
8. 支持向量机(SVM)
支持向量机可能是最受欢迎和最广泛讨论的机器学习算法之一。
超平面是分割输入变量空间的一条线。在 SVM 中，选择一条可以最好地根据输入变量类别(类别 0 或类别 1)对输入变量空间进行分割的超平面。在二维中，你可以将其视为一条线，我们假设所有的输入点都可以被这条线完全的分开。SVM 学习算法找到了可以让超平面对类别进行最佳分割的系数。
支持向量机
超平面和最近的数据点之间的距离被称为间隔。分开两个类别的最好的或最理想的超平面具备最大间隔。只有这些点与定义超平面和构建分类器有关。这些点被称为支持向量，它们支持或定义了超平面。实际上，优化算法用于寻找最大化间隔的系数的值。
SVM 可能是最强大的立即可用的分类器之一，值得一试。
9. Bagging 和随机森林
随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。
bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本，计算平均值，然后平均所有的平均值以便更好的估计真实的平均值。
bagging 使用相同的方法，但是它估计整个统计模型，最常见的是决策树。在训练数据中抽取多个样本，然后对每个数据样本建模。当你需要对新数据进行预测时，每个模型都进行预测，并将所有的预测值平均以便更好的估计真实的输出值。
随机森林
随机森林是对这种方法的一种调整，在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割，而不是选择最佳分割点。
因此，针对每个数据样本创建的模型将会与其他方式得到的有所不同，不过虽然方法独特且不同，它们仍然是准确的。结合它们的预测可以更好的估计真实的输出值。
如果你用方差较高的算法(如决策树)得到了很好的结果，那么通常可以通过 bagging 该算法来获得更好的结果。
10. Boosting 和 AdaBoost
Boosting 是一种集成技术，它试图集成一些弱分类器来创建一个强分类器。这通过从训练数据中构建一个模型，然后创建第二个模型来尝试纠正第一个模型的错误来完成。一直添加模型直到能够完美预测训练集，或添加的模型数量已经达到最大数量。
AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上，最显着的是随机梯度提升。
AdaBoost
AdaBoost与短决策树一起使用。在第一个决策树创建之后，利用每个训练实例上树的性能来衡量下一个决策树应该对每个训练实例付出多少注意力。难以预测的训练数据被分配更多权重，而容易预测的数据分配的权重较少。依次创建模型，每个模型在训练实例上更新权重，影响序列中下一个决策树的学习。在所有决策树建立之后，对新数据进行预测，并且通过每个决策树在训练数据上的精确度评估其性能。
因为在纠正算法错误上投入了太多注意力，所以具备已删除异常值的干净数据非常重要。
总结
初学者在面对各种机器学习算法时经常问：“我应该用哪个算法?”这个问题的答案取决于很多因素，包括：(1)数据的大小、质量和特性;(2)可用的计算时间;(3)任务的紧迫性;(4)你想用这些数据做什么。
即使是经验丰富的数据科学家在尝试不同的算法之前，也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法，但本篇文章中讨论的是最受欢迎的算法。如果你是机器学习的新手，这将是一个很好的学习起点。

C. relief算法只能用于二分类吗

relief算法只能用于二分类
默认的Zend Framework欢迎页面
第 2 步：初始化应用数据库和模型
下一步是初始化应用数据库。所以，我们要创建一个新的Mysql表来保存产品信息，如下所示：
以下是引用片段：
mysql> CREATE TABLE IF NOT EXISTS procts (
-> id int(11) NOT NULL AUTO_INCREMENT,
-> title varchar(200) NOT NULL,
-> shortdesc text NOT NULL,
-> price float NOT NULL,
-> quantity int(11) NOT NULL,
-> PRIMARY KEY (id)
-> ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

D. 人工智能算法简介

人工智能的三大基石—算法、数据和计算能力，算法作为其中之一，是非常重要的，那么人工智能都会涉及哪些算法呢？不同算法适用于哪些场景呢？

一、按照模型训练方式不同可以分为监督学习（Supervised Learning），无监督学习（Unsupervised Learning）、半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）四大类。

常见的监督学习算法包含以下几类：
（1）人工神经网络（Artificial Neural Network）类：反向传播（Backpropagation）、波尔兹曼机（Boltzmann Machine）、卷积神经网络（Convolutional Neural Network）、Hopfield网络（hopfield Network）、多层感知器（Multilyer Perceptron）、径向基函数网络（Radial Basis Function Network，RBFN）、受限波尔兹曼机（Restricted Boltzmann Machine）、回归神经网络（Recurrent Neural Network，RNN）、自组织映射（Self-organizing Map，SOM）、尖峰神经网络（Spiking Neural Network）等。
（2）贝叶斯类（Bayesin）：朴素贝叶斯（Naive Bayes）、高斯贝叶斯（Gaussian Naive Bayes）、多项朴素贝叶斯（Multinomial Naive Bayes）、平均-依赖性评估（Averaged One-Dependence Estimators，AODE）
贝叶斯信念网络（Bayesian Belief Network，BBN）、贝叶斯网络（Bayesian Network，BN）等。
（3）决策树（Decision Tree）类：分类和回归树（Classification and Regression Tree，CART）、迭代Dichotomiser3（Iterative Dichotomiser 3， ID3）,C4.5算法（C4.5 Algorithm）、C5.0算法（C5.0 Algorithm）、卡方自动交互检测（Chi-squared Automatic Interaction Detection，CHAID）、决策残端（Decision Stump）、ID3算法（ID3 Algorithm）、随机森林（Random Forest）、SLIQ（Supervised Learning in Quest）等。
（4）线性分类器（Linear Classifier）类：Fisher的线性判别（Fisher’s Linear Discriminant）
线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项逻辑回归（Multionmial Logistic Regression）、朴素贝叶斯分类器（Naive Bayes Classifier）、感知（Perception）、支持向量机（Support Vector Machine）等。

常见的无监督学习类算法包括：
（1）人工神经网络（Artificial Neural Network）类：生成对抗网络（Generative Adversarial Networks，GAN），前馈神经网络（Feedforward Neural Network）、逻辑学习机（Logic Learning Machine）、自组织映射（Self-organizing Map）等。
（2）关联规则学习（Association Rule Learning）类：先验算法（Apriori Algorithm）、Eclat算法（Eclat Algorithm）、FP-Growth算法等。
（3）分层聚类算法（Hierarchical Clustering）：单连锁聚类（Single-linkage Clustering），概念聚类（Conceptual Clustering）等。
（4）聚类分析（Cluster analysis）：BIRCH算法、DBSCAN算法，期望最大化（Expectation-maximization，EM）、模糊聚类（Fuzzy Clustering）、K-means算法、K均值聚类（K-means Clustering）、K-medians聚类、均值漂移算法（Mean-shift）、OPTICS算法等。
（5）异常检测（Anomaly detection）类：K最邻近（K-nearest Neighbor，KNN）算法，局部异常因子算法（Local Outlier Factor，LOF）等。

常见的半监督学习类算法包含：生成模型（Generative Models）、低密度分离（Low-density Separation）、基于图形的方法（Graph-based Methods）、联合训练（Co-training）等。

常见的强化学习类算法包含：Q学习（Q-learning）、状态-行动-奖励-状态-行动（State-Action-Reward-State-Action，SARSA）、DQN（Deep Q Network）、策略梯度算法（Policy Gradients）、基于模型强化学习（Model Based RL）、时序差分学习（Temporal Different Learning）等。

常见的深度学习类算法包含：深度信念网络（Deep Belief Machines）、深度卷积神经网络（Deep Convolutional Neural Networks）、深度递归神经网络（Deep Recurrent Neural Network）、分层时间记忆（Hierarchical Temporal Memory，HTM）、深度波尔兹曼机（Deep Boltzmann Machine，DBM）、栈式自动编码器（Stacked Autoencoder）、生成对抗网络（Generative Adversarial Networks）等。

二、按照解决任务的不同来分类，粗略可以分为二分类算法（Two-class Classification）、多分类算法（Multi-class Classification）、回归算法（Regression）、聚类算法（Clustering）和异常检测（Anomaly Detection）五种。
1.二分类（Two-class Classification）
（1）二分类支持向量机（Two-class SVM）：适用于数据特征较多、线性模型的场景。
（2）二分类平均感知器（Two-class Average Perceptron）：适用于训练时间短、线性模型的场景。
（3）二分类逻辑回归（Two-class Logistic Regression）：适用于训练时间短、线性模型的场景。
（4）二分类贝叶斯点机（Two-class Bayes Point Machine）：适用于训练时间短、线性模型的场景。（5）二分类决策森林（Two-class Decision Forest）：适用于训练时间短、精准的场景。
（6）二分类提升决策树（Two-class Boosted Decision Tree）：适用于训练时间短、精准度高、内存占用量大的场景
（7）二分类决策丛林（Two-class Decision Jungle）：适用于训练时间短、精确度高、内存占用量小的场景。
（8）二分类局部深度支持向量机（Two-class Locally Deep SVM）：适用于数据特征较多的场景。
（9）二分类神经网络（Two-class Neural Network）：适用于精准度高、训练时间较长的场景。

解决多分类问题通常适用三种解决方案：第一种，从数据集和适用方法入手，利用二分类器解决多分类问题；第二种，直接使用具备多分类能力的多分类器；第三种，将二分类器改进成为多分类器今儿解决多分类问题。
常用的算法：
（1）多分类逻辑回归（Multiclass Logistic Regression）：适用训练时间短、线性模型的场景。
（2）多分类神经网络（Multiclass Neural Network）：适用于精准度高、训练时间较长的场景。
（3）多分类决策森林（Multiclass Decision Forest）：适用于精准度高，训练时间短的场景。
（4）多分类决策丛林（Multiclass Decision Jungle）：适用于精准度高，内存占用较小的场景。
（5）“一对多”多分类（One-vs-all Multiclass）：取决于二分类器效果。

回归
回归问题通常被用来预测具体的数值而非分类。除了返回的结果不同，其他方法与分类问题类似。我们将定量输出，或者连续变量预测称为回归；将定性输出，或者离散变量预测称为分类。长巾的算法有：
（1）排序回归（Ordinal Regression）：适用于对数据进行分类排序的场景。
（2）泊松回归（Poission Regression）：适用于预测事件次数的场景。
（3）快速森林分位数回归（Fast Forest Quantile Regression）：适用于预测分布的场景。
（4）线性回归（Linear Regression）：适用于训练时间短、线性模型的场景。
（5）贝叶斯线性回归（Bayesian Linear Regression）：适用于线性模型，训练数据量较少的场景。
（6）神经网络回归（Neural Network Regression）：适用于精准度高、训练时间较长的场景。
（7）决策森林回归（Decision Forest Regression）：适用于精准度高、训练时间短的场景。
（8）提升决策树回归（Boosted Decision Tree Regression）：适用于精确度高、训练时间短、内存占用较大的场景。

聚类
聚类的目标是发现数据的潜在规律和结构。聚类通常被用做描述和衡量不同数据源间的相似性，并把数据源分类到不同的簇中。
（1）层次聚类（Hierarchical Clustering）：适用于训练时间短、大数据量的场景。
（2）K-means算法：适用于精准度高、训练时间短的场景。
（3）模糊聚类FCM算法（Fuzzy C-means，FCM）：适用于精确度高、训练时间短的场景。
（4）SOM神经网络（Self-organizing Feature Map，SOM）：适用于运行时间较长的场景。
异常检测
异常检测是指对数据中存在的不正常或非典型的分体进行检测和标志，有时也称为偏差检测。
异常检测看起来和监督学习问题非常相似，都是分类问题。都是对样本的标签进行预测和判断，但是实际上两者的区别非常大，因为异常检测中的正样本（异常点）非常小。常用的算法有：
（1）一分类支持向量机（One-class SVM）：适用于数据特征较多的场景。
（2）基于PCA的异常检测（PCA-based Anomaly Detection）：适用于训练时间短的场景。

常见的迁移学习类算法包含：归纳式迁移学习（Inctive Transfer Learning）、直推式迁移学习（Transctive Transfer Learning）、无监督式迁移学习（Unsupervised Transfer Learning）、传递式迁移学习（Transitive Transfer Learning）等。

算法的适用场景：
需要考虑的因素有：
（1）数据量的大小、数据质量和数据本身的特点
（2）机器学习要解决的具体业务场景中问题的本质是什么？
（3）可以接受的计算时间是什么？
（4）算法精度要求有多高？
————————————————

原文链接： https://blog.csdn.net/nfzhlk/article/details/82725769

E. python分类算法有哪些

常见的分类算法有：

K近邻算法
决策树
朴素贝叶斯
SVM
Logistic Regression

F. 分类算法 - SVM算法

SVM的全称是Support Vector Machine，即支持向量机，主要用于解决模式识别领域中的数据分类问题，属于有监督学习算法的一种。SVM要解决的问题可以用一个经典的二分类问题加以描述。如图1所示，红色和蓝色的二维数据点显然是可以被一条直线分开的，在模式识别领域称为线性可分问题。然而将两类数据点分开的直线显然不止一条。图2和3分别给出了A、B两种不同的分类方案，其中黑色实线为分界线，术语称为“决策面”。每个决策面对应了一个线性分类器。虽然在目前的数据上看，这两个分类器的分类结果是一样的，但如果考虑潜在的其他数据，则两者的分类性能是有差别的。

之前在b站看到一个非常好的介绍！！十分推荐，这是传送门

按照我自己的理解，以二维数据为例，我们喂给模型已经分类好的数据，那么假设有一线条可以将此部分数据正确划分为2大部分，这样可以形成2个等式，即横线两边的数值归类为1或者-1，一般情况下可以求出最大间隔即无数个解，因此需要一个限定条件求出最优的那条线条。限定方式为：无数个解形成一个解的范围，距离边缘相等的那条线条即是最优解。

有时候本来数据的确是可分的，也就是说可以用线性分类SVM的学习方法来求解，但是却因为混入了异常点，导致不能线性可分，比如下图，本来数据是可以按下面的实线来做超平面分离的，可以由于一个橙色和一个蓝色的异常点导致我们没法按照线性分类支持向量机方法来分类。

以上讨论的都是在线性可分情况进行讨论的，但是实际问题中给出的数据并不是都是线性可分的，比如有些数据可能是曲线的。

那么这种非线性可分的数据是否就不能用SVM算法来求解呢？答案是否定的。事实上，对于低维平面内不可分的数据，放在一个高维空间中去就有可能变得可分。以二维平面的数据为例，我们可以通过找到一个映射将二维平面的点放到三维平面之中。理论上任意的数据样本都能够找到一个合适的映射使得这些在低维空间不能划分的样本到高维空间中之后能够线性可分。

当特征变量非常多的时候，在高维空间中计算内积的运算量是非常庞大的。考虑到我们的目的并不是为找到这样一个映射而是为了计算其在高维空间的内积，因此如果我们能够找到计算高维空间下内积的公式，那么就能够避免这样庞大的计算量，我们的问题也就解决了。实际上这就是我们要找的 核函数 ，即两个向量在隐式映射后的空间中的内积。

（1）对于边界清晰的分类问题效果好；
（2）对高维分类问题效果好；
（3）当维度高于样本数的时候，SVM 较为有效；
（4）因为最终只使用训练集中的支持向量，所以节约内存

（1）当数据量较大时，训练时间会较长；
（2）当数据集的噪音过多时，表现不好；
（3）SVM 不直接提供结果的概率估计，它在计算时直接使用 5 倍交叉验证。

（1）LR 与 SVM 都是分类算法；
（2）LR 与 SVM 都是监督学习算法；
（3）LR 与 SVM 都是判别模型；
（4）关于判别模型与生成模型的详细概念与理解，笔者会在下篇博文给出，这里不详述。
（5）如果不考虑核函数，LR 与 SVM 都是线性分类算法，也就是说他们的分类决策面都是线性的

这里需要说明的是，LR 也是可以用核函数的，因在 LR 算法里，每个样本点都必须参与决策面的计算过程，也就是说，如果在 LR 里也运用核函数的原理，那么每个样本点都必须参与核计算，这带来的计算复杂度是相当高的。所以在具体应用时，LR 很少运用核函数机制。

（1）损失函数不同；
（2）SVM 只考虑支持向量，而 LR 考虑全局（即远离的点对边界线的确定也起作用）；
（3）在解决非线性问题时，SVM 采用核函数的机制，而 LR 通常不采用核函数的方法；
（4）SVM 的损失函数就自带正则（损失函数中的12||w||2项），这就是为什么 SVM 是结构风险最小化算法的原因，而 LR 必须另外在损失函数上添加正则项；
（5）LR是参数模型，SVM是非参数模型，本质不同。
（6）在训练集较小时，SVM 较适用，而 LR 需要较多的样本。

（1）LR 与线性回归都是广义的线性回归；
（2）线性回归模型的优化目标函数是最小二乘，而 LR 则是似然函数；
（3）线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。
（4）逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到 sigmoid 的非线性形式，sigmoid 可以轻松处理 0/1 分类问题。
（5）线性回归主要做预测，LR 主要做分类（如二分类）；

G. 降维算法二：LDA（Linear Discriminant Analysis）

学习分类算法，线性分类器最简单的就是LDA，它可以看做是简化版的SVM，如果想理解SVM这种分类器，那理解LDA就是很有必要的了。

谈到LDA，就不得不谈谈PCA，PCA是一个和LDA非常相关的算法，从推导、求解、到算法最终的结果，都有着相当的相似。

本次的内容主要是以推导数学公式为主，都是从算法的物理意义出发，然后一步一步最终推导到最终的式子，LDA和PCA最终的表现都是解一个矩阵特征值的问题，但是理解了如何推导，才能更深刻的理解其中的含义。本次内容要求读者有一些基本的线性代数基础，比如说特征值、特征向量的概念，空间投影，点乘等的一些基本知识等。除此之外的其他公式、我都尽量讲得更简单清楚。

LDA的全称是Linear Discriminant Analysis（线性判别分析），是一种 supervised learning 。有些资料上也称为是Fisher’s Linear Discriminant，因为它被Ronald Fisher发明自1936年，Discriminant这次词我个人的理解是，一个模型，不需要去通过概率的方法来训练、预测数据，比如说各种贝叶斯方法，就需要获取数据的先验、后验概率等等。LDA是在 目前机器学习、数据挖掘领域经典且热门的一个算法 ，据我所知，网络的商务搜索部里面就用了不少这方面的算法。

LDA的原理是，将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点，会形成按类别区分，一簇一簇的情况，相同类别的点，将会在投影后的空间中更接近。要说明白LDA，首先得弄明白线性分类器( Linear Classifier )：因为LDA是一种线性分类器。对于K-分类的一个分类问题，会有K个线性函数：

上式实际上就是一种投影，是将一个高维的点投影到一条高维的直线上，LDA最求的目标是，给出一个标注了类别的数据集，投影到了一条直线之后，能够使得点尽量的按类别区分开，当k=2即二分类问题的时候，如下图所示：

红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点，经过原点的那条线就是投影的直线，从图上可以清楚的看到，红色的点和蓝色的点被原点明显的分开了，这个数据只是随便画的，如果在高维的情况下，看起来会更好一点。下面我来推导一下二分类LDA问题的公式：
假设用来区分二分类的直线（投影函数)为：

LDA分类的一个目标是使得不同类别之间的距离越远越好，同一类别之中的距离越近越好，所以我们需要定义几个关键的值。
类别i的原始中心点为：（Di表示属于类别i的点)

类别i投影后的中心点为：

衡量类别i投影后，类别点之间的分散程度（方差）为：

最终我们可以得到一个下面的公式，表示LDA投影到w后的损失函数：

分类的目标是， 使得类别内的点距离越近越好（集中），类别间的点越远越好。 分母表示每一个类别内的方差之和，方差越大表示一个类别内的点越分散，分子为两个类别各自的中心点的距离的平方，我们最大化J(w)就可以求出最优的w了。想要求出最优的w，可以使用拉格朗日乘子法，但是现在我们得到的J(w)里面，w是不能被单独提出来的，我们就得想办法将w单独提出来。
我们定义一个投影前的各类别分散程度的矩阵，这个矩阵看起来有一点麻烦，其实意思是，如果某一个分类的输入点集Di里面的点距离这个分类的中心店mi越近，则Si里面元素的值就越小，如果分类的点都紧紧地围绕着mi，则Si里面的元素值越更接近0.

同样的将J(w)分子化为：

我们希望 分母越小越好，分子越大越好 ：
分母小，则每个类内部数据点比较聚集；
分子大，则两个类别的距离较远。
所以需要找出一个 W 使 J(W) 的值最大。

这样就可以用最喜欢的拉格朗日乘子法了，但是还有一个问题，如果分子、分母是都可以取任意值的，那就会使得有无穷解，我们将分母限制为长度为1（这是用拉格朗日乘子法一个很重要的技巧，在下面将说的PCA里面也会用到，如果忘记了，请复习一下高数），并作为拉格朗日乘子法的限制条件，带入得到：

这样的式子就是一个求特征值的问题了。
对于N(N>2)分类的问题，我就直接写出下面的结论了：

二者都有降维的作用。

H. binary classification是什么意思

binary classification
二分类

例句:
1.
Then starting from the concept 'scale of contexts' with a combination of two cognitive principles, we reanalyze the motivation for the binary classification mentioned above, thus indicating it is necessary to make further explorations on it by taking this opportunity.
在此基础上，建议把某些认知因素（省力原则和尽力原则）介入其中，以语境量为出发点，重新解析一般会话含义和特殊会话含义的划分理据，并提出应以此为契机，对该问题进行进一步的探索。

I. 分类算法 - adaboost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

Adaboost算法已被证明是一种有效而实用的Boosting算法。该算法是Freund和Schapire于1995年对Boosting算法的改进得到的，其算法原理是通过调整样本权重和弱分类器权值，从训练出的弱分类器中筛选出权值系数最小的弱分类器组合成一个最终强分类器。基于训练集训练弱分类器，每次下一个弱分类器都是在样本的不同权值集上训练获得的。每个样本被分类的难易度决定权重，而分类的难易度是经过前面步骤中的分类器的输出估计得到的。

Adaboost算法在样本训练集使用过程中，对其中的关键分类特征集进行多次挑选，逐步训练分量弱分类器，用适当的阈值选择最佳弱分类器，最后将每次迭代训练选出的最佳弱分类器构建为强分类器。其中，级联分类器的设计模式为在尽量保证感兴趣图像输出率的同时，减少非感兴趣图像的输出率，随着迭代次数不断增加，所有的非感兴趣图像样本都不能通过，而感兴趣样本始终保持尽可能通过为止。

1. 先通过对N个训练样本的学习得到第一个弱分类器

2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器

3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器

4. 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定

由Adaboost算法的描述过程可知，该算法在实现过程中根据训练集的大小初始化样本权值，使其满足均匀分布，在后续操作中通过公式来改变和规范化算法迭代后样本的权值。样本被错误分类导致权值增大，反之权值相应减小，这表示被错分的训练样本集包括一个更高的权重。这就会使在下轮时训练样本集更注重于难以识别的样本，针对被错分样本的进一步学习来得到下一个弱分类器，直到样本被正确分类。在达到规定的迭代次数或者预期的误差率时，则强分类器构建完成。

（1）很好的利用了弱分类器进行级联
（2）可以将不同的分类算法作为弱分类器
（3）AdaBoost具有很高的精度
（4）相对于bagging算法和Random Forest算法，AdaBoost充分考虑的每个分类器的权重

（1）AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定
（2）数据不平衡导致分类精度下降
（3）训练比较耗时，每次重新选择当前分类器最好切分点

看到这个算法你是不是似曾相识？对，他们都是由多个弱算法组合成一个强算法的原理。印证了“三个臭皮匠赛过诸葛亮”。但是其实他们棣属于不同的算法框架：

1）Bagging + 决策树 = 随机森林
2）AdaBoost + 决策树 = 提升树

那么bagging和boosting分别是什么呢？

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。

A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）

B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）

C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

其主要思想是将弱分类器组装成一个强分类器。在PAC（概率近似正确）学习框架下，则一定可以将弱分类器组装成一个强分类器。关于Boosting的两个核心问题：

通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

通过加法模型将弱分类器进行线性组合，比如AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。而提升树通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型。

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

这两种方法都是把若干个分类器整合为一个分类器的方法，只是整合的方式不一样，最终得到不一样的效果，将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一分类器的分类效果，但是也增大了计算量。

J. gbase8a支持什么分类算法

目前支持两种分类算法：
1、Logistic回归算法，Logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断和经济预测等领域。
2、支持向量机算法，
支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。
说的通俗一点就是就是在特征空间里面用某条线或某块面将训练数据集分成两类，而依据的原则就是间隔最大化，这里的间隔最大化是指特征空间里面距离分离线或面最近的点到这条线或面的间隔(距离)最大。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1126

制作脚本网站发布：2025-10-20 08:17:34 浏览：1405

python中的init方法发布：2025-10-20 08:17:33 浏览：1096

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1275

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1131

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1488

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：689

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：593

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1259

python股票数据获取发布：2025-10-20 07:39:44 浏览：1319

二分类算法

与二分类算法相关的资讯