聚类算法源码

发布时间: 2023-01-11 00:51:04

‘壹’ python代码如何应用系统聚类和K-means聚类法进行聚类分析然后选择变量，建立适当的模型

-Means聚类算法
k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。

随机选择k个点作为初始的聚类中心。
对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇。
对每个簇，计算所有点的均值作为新的聚类中心。
重复2，3直到聚类中心不再发生改变

Figure 1

K-means的应用
数据介绍：
现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八大主要变量数据，这八大变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。

实验目的：
通过聚类，了解1999年各个省份的消费水平在国内的情况。

技术路线：
sklearn.cluster.Kmeans

数据实例：

‘贰’ 手写体数字图像聚类实验代码怎么写

本文所有实现代码均来自《Python机器学习及实战》

#-*- coding:utf-8 -*-

#分别导入numpy、matplotlib、pandas，用于数学运算、作图以及数据分析
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#第一步：使用pandas读取训练数据和测试数据
digits_train = pd.read_csv('https://archive.ics.uci.e/ml/machine-learning-databases/optdigits/optdigits.tra',header=None)
digits_test = pd.read_csv('https://archive.ics.uci.e/ml/machine-learning-databases/optdigits/optdigits.tes',header=None)

#第二步：已知原始数据有65个特征值，前64个是像素特征，最后一个是每个图像样本的数字类别
#从训练集和测试集上都分离出64维度的像素特征和1维度的数字目标
X_train = digits_train[np.arange(64)]
y_train = digits_train[64]
X_test = digits_test[np.arange(64)]
y_test = digits_test[64]

#第三步：使用KMeans模型进行训练并预测
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=10)
kmeans.fit(X_train)
kmeans_y_predict = kmeans.predict(X_test)

#第四步：评估KMeans模型的性能
#如何评估聚类算法的性能？
#1.Adjusted Rand Index(ARI) 适用于被用来评估的数据本身带有正确类别的信息，ARI指标和计算Accuracy的方法类似
#2.Silhouette Coefficient(轮廓系数) 适用于被用来评估的数据没有所属类别同时兼顾了凝聚度和分散度，取值范围[-1,1],值越大，聚类效果越好
from sklearn.metrics import adjusted_rand_score
print 'The ARI value of KMeans is',adjusted_rand_score(y_test,kmeans_y_predict)
#到此为止，手写体数字图像聚类--kmeans学习结束，下面单独讨论轮廓系数评价kmeans的性能

#****************************************************************************************************
#拓展学习：利用轮廓系数评价不同累簇数量(k值)的K-means聚类实例
from sklearn.metrics import silhouette_score
#分割出3*2=6个子图，并且在1号子图作图 subplot(nrows, ncols, plot_number)
plt.subplot(3,2,1)
#初始化原始数据点
x1 = np.array([1,2,3,1,5,6,5,5,6,7,8,9,7,9])
x2 = np.array([1,3,2,2,8,6,7,6,7,1,2,1,1,3])
# a = [1,2,3] b = [4,5,6] zipped = zip(a,b) 输出为元组的列表[(1, 4), (2, 5), (3, 6)]
X = np.array(zip(x1,x2)).reshape(len(x1),2)
#X输出为：array([[1, 1],[2, 3],[3, 2],[1, 2],...,[9, 3]])
#在1号子图作出原始数据点阵的分布
plt.xlim([0,10])
plt.ylim([0,10])
plt.title('Instances')
plt.scatter(x1,x2)
colors = ['b','g','r','c','m','y','k','b']
markers = ['o','s','D','v','^','p','*','+']
clusters = [2,3,4,5,8]
subplot_counter = 1
sc_scores = []

for t in clusters:
subplot_counter += 1
plt.subplot(3,2,subplot_counter)
kmeans_model = KMeans(n_clusters=t).fit(X)
for i,l in enumerate(kmeans_model.labels_):
plt.plot(x1[i],x2[i],color=colors[l],marker=markers[l],ls='None')
plt.xlim([0,10])
plt.ylim([0,10])
sc_score = silhouette_score(X,kmeans_model.labels_,metric='euclidean')
sc_scores.append(sc_score)
#绘制轮廓系数与不同类簇数量的直观显示图
plt.title('K=%s,silhouette coefficient = %0.03f'%(t,sc_score))
#绘制轮廓系数与不同类簇数量的关系曲线

plt.figure() #此处必须空一行，表示在for循环结束之后执行！！！
plt.plot(clusters,sc_scores,'*-') #绘制折线图时的样子
plt.xlabel('Number of Clusters')
plt.ylabel('Silhouette Coefficient Score')
plt.show()
#****************************************************************************************************

#总结：
#k-means聚类模型所采用的迭代式算法，直观易懂并且非常实用，但是有两大缺陷
#1.容易收敛到局部最优解，受随机初始聚类中心影响，可多执行几次k-means来挑选性能最佳的结果
#2.需要预先设定簇的数量，

‘叁’ 聚类算法K-means算法实现的java源代码数据是文件读入的，跪求!!!!

不会用跟我说，我自己写的，亲测可用

‘肆’ 用c#实现k-means聚类算法源代码

http://www.codeproject.com/KB/recipes/K-Mean_Clustering.aspx

‘伍’ 谁有遗传聚类算法程序代码

1、JDK （Java Development Kit）Java开发工具集

从初学者角度来看，采用JDK开发Java程序能够很快理解程序中各部分代码之间的关系，有利于理解Java面向对象的设计思想。JDK的另一个显着特点是随着Java （J2EE、J2SE以及J2ME）版本的升级而升级。但它的缺点也是非常明显的就是从事大规模企业级Java应用开发非常困难，不能进行复杂的Java软件开发，也不利于团体协同开发。

2、Java Workshop

3、NetBeans 与Sun Java Studio 5
4.Borland 的JBuilder jbuilder2006 JBuilder
或者直接用Editplus或者UltraEdit都可以
JBuilder启动比较费CPU和内存，而且收费，还是全英文界面，不过用熟了还是很好用的。初学者先用Notepad(写字板)，Ultraedit之类的简单文本编辑器写代码，
用命令行下javac，java编译执行程序。

明白了这种底层的东西后，再用Jcreator，eclipse啥的
JCreator是一个JAVA集成开发环境（IDE）。它为用户提供了相当强大的功能，例如项目管理功能，项目模板功能，可个性化设置语法高亮属性、行数、类浏览器、标签文档、多功能编绎器，向导功能以及完全可自定义的用户界面。通过JCreator，你不用激活主文档而直接编绎或运行你的JAVA程序。JCreator能自动找到包含主函数的文件或包含Applet的Html文件，然后它会运行适当的工具。在JCreator中，你可以通过一个批处理同时编绎多个项目。JCreator的设计接近Windows界面风格，用户对它的界面比较熟悉。 UltraEdit初级用这一个，这一个比较好的．
你如果想开发比较高级的程序啦．．用Jbuilder吧．这一个地球人都知道的．应该是用什么来编译吧？要编写的话当然是用JAVA语言了，编写的平台的话就很多了，随便到网上搜索就可能找到，记事本也可能用来编写，编译平台也很多，JDK是少不了，最简单的就是JDK了，安装好JDK，然后配置好系统参数JAV_HOME(值为JDK的安装路径)JDK_HOME(值为JDK的安装路径)还要配置CLASSPATH和PATH,这样就可以用记事本编写程序,在命令提示符下编译了开始是先学习VB然后用JAVA语言就可以了 UltraEdit 如果不是企业级的开发，选用eclipse是非常不错的，它是一个开源的软件可以集成很多插件来帮助你写java应用程序和客户端程序。常见的十四种Java开发工具及其特点出处：JR
1、JDK （Java Development Kit）Java开发工具集

从初学者角度来看，采用JDK开发Java程序能够很快理解程序中各部分代码之间的关系，有利于理解Java面向对象的设计思想。JDK的另一个显着特点是随着Java （J2EE、J2SE以及J2ME）版本的升级而升级。但它的缺点也是非常明显的就是从事大规模企业级Java应用开发非常困难，不能进行复杂的Java软件开发，也不利于团体协同开发。

2、Java Workshop

3、NetBeans 与Sun Java Studio 5

NetBeans是开放源码的Java集成开发环境(IDE)，适用于各种客户机和Web应用。Sun Java Studio是Sun公司最新发布的商用全功能Java IDE，支持Solaris、Linux和Windows平台，适于创建和部署2层Java Web应用和n层J2EE应用的企业开发人员使用。

NetBeans是业界第一款支持创新型Java开发的开放源码IDE。开发人员可以利用业界强大的开发工具来构建桌面、Web或移动应用。同时，通过NetBeans和开放的API的模块化结构，第三方能够非常轻松地扩展或集成NetBeans平台。

NetBeans3.5.1主要针对一般Java软件的开发者，而Java One Studio5则主要针对企业做网络服务等应用的开发者。Sun不久还将推出Project Rave，其目标是帮助企业的开发者进行软件开发。

NetBeans 3.5.1版本与其他开发工具相比，最大区别在于不仅能够开发各种台式机上的应用，而且可以用来开发网络服务方面的应用，可以开发基于J2ME的移动设备上的应用等。在NetBeans 3.5.1基础上，Sun开发出了Java One Studio5，为用户提供了一个更加先进的企业编程环境。在新的Java One Studio5里有一个应用框架，开发者可以利用这些模块快速开发自己在网络服务方面的各种应用程序。

4、Borland 的JBuilder

Jbuilder进入了Java集成开发环境的王国，它满足很多方面的应用，尤其是对于服务器方以及EJB开发者们来说。下面简单介绍一下Jbuilder的特点:

1）Jbuilder支持最新的Java技术，包括Applets、JSP/Servlets、JavaBean以及EJB(Enterprise JavaBeans)的应用。

2）用户可以自动地生成基于后端数据库表的EJB Java类，Jbuilder同时还简化了EJB的自动部署功能.此外它还支持CORBA，相应的向导程序有助于用户全面地管理IDL(分布应用程序所必需的接口定义语言Interface Definition Language)和控制远程对象。

3）Jbuilder支持各种应用服务器。Jbuilder与Inprise Application Server紧密集成，同时支持WebLogic Server，支持EJB 1.1和EJB 2.0，可以快速开发J2EE的电子商务应用。

4）Jbuilder能用Servlet和JSP开发和调试动态Web 应用。

5）利用Jbuilder可创建(没有专有代码和标记)纯Java2应用。由于Jbuilder是用纯Java语言编写的，其代码不含任何专属代码和标记，它支持最新的Java标准。

6）Jbuilder拥有专业化的图形调试接口，支持远程调试和多线程调试，调试器支持各种JDK版本,包括J2ME/J2SE/J2EE。

JBuilder环境开发程序方便，它是纯的Java 开发环境，适合企业的J2EE开发；缺点是往往一开始人们难于把握整个程序各部分之间的关系，对机器的硬件要求较高，比较吃内存，这时运行速度显得较慢。

5、Oracle 的JDeveloper

Oracle9i JDeveloper（定为9.0版，最新为10g）为构建具有J2EE功能，XML和Web services的复杂的，多层的 Java应用程序提供了一个完全集成的开发环境。它为运用Oracle9i数据库和应用服务器的开发人员提供特殊的功能和增强性能，除此以外，它也有资格成为用于多种用途Java开发的一个强大的工具。

Oracle9i JDeveloper的主要特点如下：

① 具有UML（Unified Modeling Language，一体化建模语言）建模功能。可以将业务对象及e-business应用模型化。

② 配备有高速Java调试器（Debuger）、内置Profiling工具、提高代码质量的工具“CodeCoach”等。

③ 支持SOAP（Simple Object Access Protocol）“简单对象访问协议”、UDDI （Universal Description, Discovery and Integration）“统一描述、发现和集成协议”、WSDL （Web Services Description Language）“WEB服务描述语言”等Web服务标准。

JDeveloper 不仅仅是很好的 Java 编程工具，而且是 Oracle Web 服务的延伸，支 Apache SOAP，以及 9iAS ，可扩充的环境和 XML 和 WSDL 语言紧密相关。Oracle9i Jdeveloper完全利用Java编写，能够与以前的 Oracle服务器软件以及其他厂商支持J2EE的应用服务器产品相兼容，而且在设计时着重针对Oracle9i，能够无缝化跨平台之间的应用开发，提供了业界第一个完整的、集成了J2EE和XML的开发环境，允许开发者快速开发可以通过Web、无线设备及语音界面访问的Web服务和交易应用，以往只能通过将传统Java编程技巧与最新模块化方式结合到一个单一集成的开发环境中之后才能完成J2EE应用开发生命周期管理的事实，从根本上得到改变。缺点就是对于初学者来说，较复杂，也比较难。

6、IBM的Visual Age for Java

Visual Age for Java是一个非常成熟的开发工具，它的特性以于IT开发者和业余的Java编程人员来说都是非常用有用的。它提供对可视化编程的广泛支持，支持利用CICS连接遗传大型机应用，支持EJB的开发应用，支持与Websphere的集成开发，方便的bean创建和良好的快速应用开发(RAD)支持和无文件式的文件处理。

IBM为建设Web站点所推出的 WebSphere Studio Advanced Edition及其包含的Visua Age for Java Professional Edition软件已全面转向以Java为中心，这样，Java开发人员对WebSphere全套工具的感觉或许会好了许多。Studio所提供的工具有：Web站点管理、快速开发 JDBC页向导程序、HTML编辑器和HTML语法检查等。这确实是个不错的HTML站点页面编辑环境。Studio和VisualAge集成度很高，菜单中提供了在两种软件包之间快速移动代码的选项。这就让使用 Studio的Web页面设计人员和使用VisualAge的Java程序员可以相互交换文件、协同工作。

Visual Age for Java支持团队开发，内置的代码库可以自动地根据用户做出改动而修改程序代码，这样就可以很方便地将目前代码和早期版本做出比较。与Visual Age紧密结合的Websphere Studio本身并不提供源代码和版本管理的支持，它只是包含了一个内置文件锁定系统, 当编辑项目的时候可以防止其他人对这些文件的错误修改，软件还支持诸如Microsoft Visual SourceSafe这样的第三方源代码控制系统。Viual Age for Java完全面向对象的程序设计思想使得开发程序非常快速、高效。你可以不编写任何代码就可以设计出一个典型的应用程序框架。Visual Age for Java作为IBM电子商务解决方案其中产品之一，可以无缝地与其他IBM产品，如WebSphere、DB2融合, 迅速完成从设计、开发到部署应用的整个过程。

Visual Age for Java独特的管理文件方式使其集成外部工具非常困难,你无法让Visual Age for Java与其他工具一起联合开发应用。

7、BEA 的 WebLogic Workshop

BEA WebLogic Workshop是一个统一、简化、可扩展的开发环境，使所有的开发人员都能在 BEA WebLogic Enterprise Platform之上构建基于标准的企业级应用，从而提高了开发部门的生产力水平，加快了价值的实现。

WebLogic Workshop除了提供便捷的Web服务之外，它能够用于创建更多种类的应用。作为整个 BEA WebLogic Platform的开发环境。不管是创建门户应用、编写工作流、还是创建Web应用，Workshop 8.1都可以帮助开发人员更快更好地完成。

WebLogic Workshop的主要特点如下：

① 使 J2EE 开发切实可行，提高开发效率

BEA WebLogic Workshop 使开发人员远离 J2EE 内在的复杂性，集中精力专注业务逻辑，无须操心单调乏味的基础结构代码。这种创新意味着，已被企业验证的 J2EE 的强大功能，最终被大多数不熟悉 Java 和 J2EE 的应用开发人员所掌握，从而使 IT 部门的工作效率提高一个数量级。

可视化设计器以及直观的概念，如事件、属性和控件等，实现了基于事件的开发。Workshop 简化的程序设计模型，使开发人员不必掌握复杂的 J2EE API 和面向对象的程序设计原理。所有开发人员，包括 J2EE 专家和具有可视化和过程化语言技能的应用开发人员在内，都可以共同工作在 BEA WebLogic Enterprise Platform 之上。Workshop 的可视化开发环境，创建带有代码注释的标准 Java 文件，用来说明由运行时框架实施的企业级需求。J2EE 和其他高级开发人员，借助功能强大的代码编辑功能，可以访问 Java 源代码，从而弥补了可视化设计器的不足。

② 构建企业级应用

通过在可伸缩、安全可靠的企业级架构上实施各种应用，BEA WebLogic Workshop 大大降低了开发风险。而且，所有应用的创建都使用标准的 J2EE 组件，既保护了您的技术投资，又保持了最大的灵活性。 BEA WebLogic Workshop 运行框架，是统一整个架构的汇聚层，使单一、简化的程序设
计模型扩展到所有的 BEA WebLogic Enterprise Platform 应用类型。通过解释设计时创建的注释代码，运行时框架可以实现必要的 J2EE 组件，并且提取出与 J2EE 应用开发有关的所有底层细节。

③ 降低 IT 复杂性

BEA WebLogic Workshop 提供各种 Java 控件，使得与 IT 资源的连接更轻而易举。另外，在构建任何 BEA WebLogic Platform 的应用中，Java 控件不仅可扩展而且完全相同。这种强大、有效的方法能够：降低 IT 技术的复杂性，优化信息的可用性，推动包含"最佳业务方案"的可重用服务的开发，使开发人员能以更低的成本、更短的时间实现更大的产出。

利用 BEA WebLogic Workshop，任何开发人员都能以最大的生产效率，构建各种Web 服务、Web 应用、门户和集成项目。 BEA WebLogic Workshop是BEA的产品战略核心，它帮助客户接触和利用面向服务架构(SOA)的强大功能。 BEA Weblogic Workshop 8.1极大简化了当前实际企业集成环境中企业级应用和服务的构建，并成为全面支持关键企业级应用(如异步、真正松耦合和粗粒度消息传送等)的自然选择。它的缺点就是过于复杂，对于初学者来说，理解起来较为困难。

8、WebGain 的Visual Cafe for Java

Visual Cafe 是只能在Symantec公司的Java虚拟机、Netscape公司的Java虚拟机和Microsoft虚拟机上工作的调试器。这对于开发者来讲是一个重要的特性,因为用户开发的Java代码中的许多软件bug就可能中会在某种特定的虚拟机上起作用。

在修改后进行编译基继续进行调试时,Visual Cafe会自动将文件存盘，使用Visual Cafe创建的原生应用具有许多特点。除了明显的速度提高之外,Symantec使类库的二进制方式比正常的JDK小Visual Cafe为所指定的关系自动生成或更新必要的Java代码。利用 Visual Cafe，用户可以从一个标准对象数据库中集合完整的Java应用程序和Applet，而不必再编写源代码。Visual Cafe还提供了一个扩充的源代码开发工具集。

Visual Cafe综合了Java软件的可视化源程序开发工具，它允许开发人员在可视化视图和源视图之间进行有效地转换。在可视化视图中进行的修改立即反映在源代码中。对源代码的改变自动更新可视化视图。

Visual Cafe具有许多源文件方面的特性，如全局检索和替换。绝大多数Java开发工具的文献的问题在于简单地挨个介绍开发工具的每部分组件，但用户在开应用时还需要一个面向任务的手册，利用这个手册你可以不必知道工具每一部分的特定功能就可以开始创建自己的应用。Visual Cafe提供了非常全面的用户指南,它对最开始的安装到创建第一个Java应用和Applet都提供了全面的帮助，Visual Cafe将自动生成所指明关系的必要 Java代码。Visual Cafe可以在Windows 95和Windows NT平台下运行，Symantec公司为Java开发工作提供一个在 Macintosh操作系统下可以运行的RAD工具。Visual Cafe编译器速度很快，在国际化支持方面比较突出；缺点就是对于初学者来说，较复杂，也比较难。

9、Macromedia的JRUN

Macromedia公司的JRun是一个具有最广阔适用性的Java引擎，用于开发及实施由Java Servlets和JavaServer Pages编写的服务器端 Java应用。JRun是第一个完全支持JSP 1.0 规格书的商业化产品，全球有超过80,000名开发人员使用JRun在他们已有的Web服务器上添加服务器端Java的功能。其中Web服务器包括了Microsoft IIS，Netscape Enterprise Server，Apache 等。

JRun是开发实施服务器端Java的先进引擎。如果我们希望在我们的Web应用中添加服务器端Java功能，那么JRun将成为我们的正确选择。

JRun目前有3个版本，它是第一个支持Java Server Pages(JSP)规格书1.0的商业化产品。JSP是一种强大的服务器端技术，它是用于创建复杂Web应用的一整套快速应用开发系统。JRun可以使我们开始开发并测试Java应用。它最多接受5个并发的连接并且包括全部 Java Servlet API，支持JavaServer Pages(JSP)，支持所有主要的Web servers和计算机平台。 JRun Pro能够在生产环境下承受大访问量的负载，帮助我们实施应用、服务或Web站点（包括内联网）。JRun Pro 支持无限量并发式连接运行多个Jav
a虚拟机，包括多个并发的Java虚拟机（JVM）。提供一个远程管理applet以及一个远程可再分布式的管理applet。JRun Pro Unlimited包括了所有JRun Pro的功能，除次以外，还可以运行无限量的，并发的JVM。

JRun依靠其内置的JRun Web Server可以单独运行。使用服务器端Java，用户可以开发出复杂的商业应用系统。最重要的一点是，由于 servlets的平台独立性，以及更加简单的开发、更快速的实施、更经济的维护成本，它是CGI(Common Gateway Interface) 或Perl scripts的极佳的替代产品。缺点就是对于初学者来说，较复杂，也比较难。

10、JCreator

JCreator 是一个Java程序开发工具，也是一个Java集成开发环境（IDE）。无论你是要开发Java应用程序或者网页上的Applet元件都难不倒它。在功能上与Sun公司所公布的JDK等文字模式开发工具相较之下来得容易，还允许使用者自订义操作窗口界面及无限Undo/Redo等功能。

JCreator为用户提供了相当强大的功能，例如项目管理功能，项目模板功能，可个性化设置语法高亮属性、行数、类浏览器、标签文档、多功能编绎器，向导功能以及完全可自定义的用户界面。通过JCreator，我们不用激活主文档而直接编绎或运行我们的JAVA程序。

JCreator能自动找到包含主函数的文件或包含Applet的Html文件，然后它会运行适当的工具。在JCreator中，我们可以通过一个批处理同时编绎多个项目。JCreator的设计接近Windows界面风格，用户对它的界面比较熟悉。其最大特点是与我们机器中所装的JDK完美结合，是其它任何一款IDE所不能比拟的。它是一种初学者很容易上手的java开发工具，缺点是只能进行简单的程序开发，不能进行企业J2EE的开发应用。

还有的字太多，贴不上，请到下面的网址去看

http://www.javaresearch.org/article/showarticle.jsp?column=91&thread=24920 参考文献：http://www.javaresearch.org/ 我现在也在学.
建议是用JCreate
软件小且适用于初写者
JBuild9.0太大,机子的性能也要求很大. 我用日蚀

Eclipse 只要普通的文本编辑器就可以了，因为java文件本身是文本文档，不过如果开发的话可以使用eclipse，jbuilder，intellJ IDEA，Netbeans，这些帮你把一些常用的工作都做了。 jdev 记事本＋jdk

‘陆’ spark机器学习-聚类

spark机器学习-聚类
聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中，聚类算法的思想简单的说就是物以类聚的思想，相同性质的点在空间中表现的较为紧密和接近，主要用于数据探索与异常检测，最常用的一种聚类算法是K均值(K-means)聚类算法

算法原理
kmeans的计算方法如下：
1 选取k个中心点
2 遍历所有数据，将每个数据划分到最近的中心点中
3 计算每个聚类的平均值，并作为新的中心点
4 重复2-3，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代
算法的时间复杂度上界为O(n*k*t), 其中k为输入的聚类个数，n为数据量，t为迭代次数。一般t,k,n均可认为是常量，时间和空间复杂度可以简化为O(n)，即线性的
spark ml编码实践
可在spark-shell环境下修改参数调试以下代码，可以用实际的业务数据做测试评估，业务数据一般是多列，可以把维度列用VectorAssembler组装成向量列做为Kmeans算法的输入列，考虑现实的应用场景，比如做异常数据检测，正常数据分为一类，异常数据分为几类，分别统计正常数据与异常数据的数据量，求百分比等
import org.apache.spark.ml.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors

val dataset = sqlContext.createDataFrame(Seq(
(1, Vectors.dense(0.0, 0.0, 0.0)),
(2, Vectors.dense(0.1, 0.1, 0.1)),
(3, Vectors.dense(0.2, 0.2, 0.2)),
(4, Vectors.dense(9.0, 9.0, 9.0)),
(5, Vectors.dense(1.1, 1.1, 0.1)),
(6, Vectors.dense(12, 14, 100)),
(6, Vectors.dense(1.1, 0.1, 0.2)),
(6, Vectors.dense(-2, -3, -4)),
(6, Vectors.dense(1.6, 0.6, 0.2))
)).toDF("id", "features")

// Trains a k-means model
val kmeans = new KMeans().setK(3).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")
val model = kmeans.fit(dataset)

// Shows the result
println("Final Centers: ")
model.clusterCenters.foreach(println)
model.clusterCenters.zipWithIndex.foreach(println)

val myres = model.transform(dataset).select("features","prediction")
myres.show()
聚类算法是一类无监督式机器学习算法，聚类效果怎么评估，模型训练参数怎么调优，是否能用管道来训练模型来比较各种不同组合的参数的效果，即网格搜索法(gridsearch),先设置好待测试的参数，MLLib就会自动完成这些参数的不同组合,管道搭建了一条工作流，一次性完成了整个模型的调优，而不是独立对每个参数进行调优，这个还要再确认一下，查看SPARK-14516好像目前还没有一个聚类效果通用的自动的度量方法
像这种代码（不过现在这个代码有问题）：
import org.apache.spark.ml.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.ml.tuning.{ ParamGridBuilder, CrossValidator }
import org.apache.spark.ml.{ Pipeline, PipelineStage }

val dataset = sqlContext.createDataFrame(Seq(
(1, Vectors.dense(0.0, 0.0, 0.0)),
(2, Vectors.dense(0.1, 0.1, 0.1)),
(3, Vectors.dense(0.2, 0.2, 0.2)),
(4, Vectors.dense(9.0, 9.0, 9.0)),
(5, Vectors.dense(1.1, 1.1, 0.1)),
(6, Vectors.dense(12, 14, 100)),
(6, Vectors.dense(1.1, 0.1, 0.2)),
(6, Vectors.dense(-2, -3, -4)),
(6, Vectors.dense(1.6, 0.6, 0.2))
)).toDF("id", "features")

val kmeans = new KMeans().setK(2).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")
//主要问题在这里，没有可用的评估器与label列设置
val evaluator = new BinaryClassificationEvaluator().setLabelCol("prediction")
val paramGrid = new ParamGridBuilder().addGrid(kmeans.initMode, Array("random")).addGrid(kmeans.k, Array(3, 4)).addGrid(kmeans.maxIter, Array(20, 60)).addGrid(kmeans.seed, Array(1L, 2L)).build()
val steps: Array[PipelineStage] = Array(kmeans)
val pipeline = new Pipeline().setStages(steps)

val cv = new CrossValidator().setEstimator(pipeline).setEvaluator(evaluator).setEstimatorParamMaps(paramGrid).setNumFolds(10)
// Trains a model
val pipelineFittedModel = cv.fit(dataset)

‘柒’ 聚类（Clustering）

无监督学习（Unsupervised learning）：训练样本的标记信息是未知的，目标是为了揭露训练样本的内在属性，结构和信息，为进一步的数据挖掘提供基础。

· 聚类（clustering）

· 降维（dimensionality rection）

· 异常检测（outlier detection）

· 推荐系统（recommendation system）

监督学习（supervised learning）：训练样本带有信息标记，利用已有的训练样本信息学习数据的规律预测未知的新样本标签

· 回归分析（regression）

· 分类（classification）

聚类：物以类聚。按照某一个特定的标准（比如距离），把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不再同一个簇内的数据对象的差异性也尽可能的大。

簇（或类cluster）：子集合。最大化簇内的相似性；最小化簇与簇之间的相似性。

聚类可以作为一个单独过程，用于寻找数据内在分布结构，也可以作为其他学习任务前驱过程。

聚类和分类的区别：聚类是无监督学习任务，不知道真实的样本标记，只把相似度搞得样本聚合在一起；分类是监督学习任务，利用已知的样本标记训练学习器预测未知样本的类别。

聚类相似度度量：几何距离

几种距离度量方法：

· 欧式距离（Euclidean distance）:p=2的Minkowski距离，

· Minkowoski距离：

· 曼哈顿距离（Manhattan distance）:p=1的Minkowski距离

· 夹角余弦：

` 相关系数（Pearson correlation coefficient）： ,等式右面的x其实是（x方向的均值），y其实是（y方向的均值）,对于这个表达式很不友好，所以在此说明一下。

聚类类别：

· 基于划分的聚类（partitioning based clustering）：k均值（K-means）, Mean shift

· 层次聚类（hierarchical clustering）：Agglomerative clustering, BIRCH

· 密度聚类（density based clustering）：DBSCAN

· 基于模型的聚类（model based clustering）：高斯混合模型（GMM）

· Affinity propagation

· Spectral clustering

聚类原理：

划分聚类（partition based clustering）：给定包含N个点的数据集，划分法将构造K个分组；每个分组代表一个聚类，这里每个分组至少包含一个数据点，每个数据点属于且只属于一个分组；对于给定的K值，算法先给出一个初始化的分组方法，然后通过反复迭代的的方法改变分组，知道准则函数收敛。

K均值算法（Kmeans）:

` 给定样本集：D={ , .... }, k均值算法针对聚类所得簇：C={ , ... }

` 最小化平方差： ,其中：簇的质心，上面的2代表平方，下面的2代表范数2.

具体的K均值算法过程：

1. 随机选择K个对子女给，每个对象出事地代表了一个簇的质心，即选择K个初始质心；2. 对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；3. 重新计算每个簇的平均值。这个过程不断重复，直到准则函数（误差的平方和SSE作为全局的目标函数）收敛，直到质心不发生明显的变化。

初始质心优化:Kmeans++：

输入：样本集D={ , ... } 聚类簇的数量K

选取初始质心的过程：

1. 随机从m个样本点中选择一个样本作为第一个簇的质心C1；2. 计算所有的样本点到质心C1的距离： ;3. 从每个点的概率分布中随机选取一个点作为第二个质心C2。离C1越远的点，被选择的概率越大；4. 重新计算所有样本点到质心的距离；5. 重复上述过程，直到初始的K个质心被选择完成；按照Kmeans的算法步骤完成聚类。

输出：C= { , ... }

K均值算法（Kmean）的优缺点：

优点：1. 简单直观，抑郁理解实现；2. 复杂度相对比较低，在K不是很大的情况下，Kmeans的计算时间相对很短；3. Kmean会产生紧密度比较高的簇，反映了簇内样本围绕质心的紧密程度的一种算法。

缺点：1. 很难预测到准确的簇的数目；2. 对初始值设置很敏感（Kmeans++）；3. Kmeans主要发现圆形或者球形簇，对不同形状和密度的簇效果不好；4. Kmeans对噪声和离群值非常敏感（Kmeadians对噪声和离群值不敏感）

层次聚类（hierarchical clustering）：

· 主要在不同层次对数据集进行逐层分解，直到满足某种条件为止；

· 先计算样本之间的距离。每次将距离最近的点合并到同一个类，然后再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成一个类。

· 自底向上（bottom-up）和自顶向下（top-down）两种方法：

top-down：一开始每个个体都是一个初始的类，然后根据类与类之间的链接（linkage）寻找同类，最后形成一个最终的簇

bottom-up：一开始所有样本都属于一个大类，然后根据类与类之间的链接排除异己，打到聚类的目的。

类与类距离的计算方法：

最短距离法，最长距离法，中间距离法，平均距离法

最小距离：

最大距离：

平均距离：

单链接（single-linkage）:根据最小距离算法

全连接（complete-linkage）：根据最大距离算法

均链接（average-linkage）：根据平均距离算法

凝聚层次聚类具体算法流程：

1. 给定样本集，决定聚类簇距离度量函数以及聚类簇数目k；2. 将每个样本看作一类，计算两两之间的距离；3. 将距离最小的两个类合并成一个心类；4.重新计算心类与所有类之间的距离；5. 重复（3-4），知道达到所需要的簇的数目

层次聚类的优缺点：

优点：1.可以得到任意形状的簇，没有Kmeans对形状上的限制；2. 可以发现类之间的层次关系；3.不要制定簇的数目

缺点：1. 通常来说，计算复杂度高（很多merge/split）；2.噪声对层次聚类也会产生很大影响；3.不适合打样本的聚类

密度聚类（density based clustering） :

` 基于密度的方法的特点是不依赖于距离，而是依赖于密度，从而客服k均值只能发现“球形”聚簇的缺点

· 核心思想：只要一个区域中点的密度大于某个阈值，就把它加到与之相近的聚类中去

· 密度算法从样本密度的角度来考察样本的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果

· 对噪声和离群值的处理有效

· 经典算法：DBSCAN（density based spatial clutering of applications with noise）

DBSCAN 基于近邻域（neighborhood）参数（）刻画样本分布的紧密程度的一种算法。

基本概念：

· 样本集： D={ }

` 阈值：

· ：对样本点的包括样本集中与距离不大于的样本

· 核心对象（core object）：如果的至少包含MinPts个样本，那么就是一个核心对象 ,

假设MinPts=3,虚线标识为

·密度直达（directly density-reachable）:如果位于的中，并且是和新对象，那么由密度直达

· 密度可达（density-reachable）：对 ,如果存在一串样本点p1,p2.....pn = ，pn = ,且由

` 密度直达,则称由密度可达

· 密度相连：存在样本集合中一点o,如果和均由O密度可达，那么和密度相连

上图中：是核心对象，那么从出发，由密度直达；由密度可达；与密度相连。

DBSCAN算法的过程：

1. 首先根据邻域参数（）确定样本集合D中所有的核心对象，存在集合P中。加入集合P的条件为有不少于MinPts的样本数。

2. 然后从核心对象集合P中任意选取一个核心对象作为初始点，找出其密度可达的样本生成聚类簇，构成第一个聚类簇C1。

3. 将C1内多有核心对象从P中去除，再从更新后的核心对象集合任意选取下一个种子样本。

4. 重复（2-3），直到核心对象被全部选择完，也就是P为空集。

聚类算法总结：

基于划分的聚类：K均值（kmeans），kmeans++

层次聚类：Agglomerative聚类

密度聚类：DBSCAN

基于模型的聚类：高斯混合模型（GMM）,这篇博客里咩有介绍

虽然稀里糊涂，但是先跟下来再说吧：

‘捌’ 聚类（Clustering）

首先我们先来认识一下什么是聚类任务。
聚类是“无监督学习（unsupervised learning）”中重要的一种。其目标是：通过对无标记的训练样本学习，来揭示数据内在的性质以及规律，为进一步的数据分析做基础。聚类的结果是一个个的簇（Cluster）。所以来说，聚类通常作为其他学习算法的先导，比如在分类问题中，常常先做聚类，基于聚类的不同簇来进行分类模型的训练。
我们先来认识一下聚类算法涉及到两个基本问题：性能度量 & 距离计算。后面我们再具体讲解聚类的经典算法。

由于聚类算法是无监督式学习，不依赖于样本的真实标记。所以聚类并不能像监督学习例如分类那样，通过计算对错（精确度/错误率）来评价学习器的好坏或者作为学习器的优化目标。一般来说，聚类有两类性能度量指标：外部指标和内部指标

所谓外部，是将聚类结果与某个参考模型的结果进行比较， 以参考模型的输出作为标准，来评价聚类的好坏。 假设聚类给出的结果为 λ，参考模型给出的结果是λ*，则我们将样本进行两两配对，定义：

内部指标不依赖任何外部模型，直接对聚类的结果进行评估。直观来说： 簇内高内聚，簇间低耦合 。定义：

我们从小学的距离都是欧氏距离。这里介绍几种其他的距离度量方法：

这里对于无需属性我们用闵可夫斯基距离就不能做，需要用VDM距离进行计算，对于离散属性的两个取值a和b，定义：

所以在计算两个样本的距离时候，将两种距离混合在一起进行计算：

原型聚类即“基于原型的聚类（prototype-based clustering）”，原型指的是样本空间中具有代表性的点（类似于K-Means 选取的中心点）。通常情况下来说，算法现对原型进行初始化，然后对原型进行迭代更新求解。而不同的初始化形式和不同的求解方法，最终会得到不同的算法。常见的 K-Means 便是基于簇中心来实现聚类；混合高斯聚类则是基于簇分布来实现聚类。下面我们具体看一下几种算聚类算法：

K-Means 聚类的思想十分简单， 首先随机指定类中心，根据样本与类中心的远近划分类簇；然后重新计算类中心，迭代直至收敛。 实际上，迭代的过程是通过计算得到的。其根本的优化目标是平方误差函数E：

其中 u_i 是簇 C_i 的均值向量。直观上来看，上式刻画了簇内样本围绕簇均值向量（可以理解为簇中心）的紧密程度，E值越小，则簇内样本的相似度越高。
具体的算法流程如下：

书上还给出了基于具体西瓜样本集的计算过程说明。可以看一下。

LVQ 也是基于原型的聚类算法，与K-Means 不同的是， LVQ使用样本的真实类标记来辅助聚类 。首先，LVQ根据样本的类标记，从各类中分别随机选出一个样本作为该类簇的原型，从而形成了一个 原型特征向量组 ，接着从样本集中随机挑选一个样本，计算其与原型向量组中每个向量的距离，并选取距离最小的向量所在的类簇作为该样本的划分结果，再与真实类标比较：

可以看到，K-Means 和 LVQ 都是以类中心作为原型指导聚类，而高斯混合聚类则采用 高斯分布 来描述原型。现在假设每个类簇中的样本都服从一个多维高斯分布，那么空间中的样本可以看做由K个多维高斯分布混合而成。
多维高斯的概密为：

密度聚类是基于密度的聚类，它从个样本分布的角度来考察样本之间的 可连接性 ，并基于可连接性（密度可达）不断拓展疆域（类簇）。最着名的就是DBSCAN（Density-Based Spatial Clustering of Applications with Noise），首先我们需要明白以下概念：

层次聚类试图在不同层次对数据集进行划分，从而形成属性的聚类结构。
这里介绍一种“自底向上”结合策略的 AGNES（AGglomerative NESting）算法。假设有N个待聚类的样本，AGNES算法的基本步骤如下：

可以看出其中最关键的一步就是 计算两个类簇的相似度 ，这里有几种度量方法：
（1）单链接（singal-linkage）：取类间最小距离

‘玖’ 遗传算法改进的模糊C-均值聚类MATLAB源码范例

function [BESTX,BESTY,ALLX,ALLY]=GAFCM(K,N,Pm,LB,UB,D,c,m)
%% 此函数实现遗传算法，用于模糊C－均值聚类
%% 输入参数列表
% K 迭代次数
% N 种群规模，要求是偶数
% Pm 变异概率
% LB 决策变量的下界，M×1的向量
% UB 决策变量的上界，M×1的向量
% D 原始样本数据，n×p的矩阵
% c 分类个数
% m 模糊C均值聚类数学模型中的指数
%% 输出参数列表
% BESTX K×1细胞结构，每一个元素是M×1向量，记录每一代的最优个体
% BESTY K×1矩阵，记录每一代的最优个体的评价函数值
% ALLX K×1细胞结构，每一个元素是M×N矩阵，记录全部个体
% ALLY K×N矩阵，记录全部个体的评价函数值
%% 第一步：
M=length(LB);%决策变量的个数
%种群初始化，每一列是一个样本
farm=zeros(M,N);
for i=1:M
x=unifrnd(LB(i),UB(i),1,N);
farm(i,:)=x;
end
%输出变量初始化
ALLX=cell(K,1);%细胞结构，每一个元素是M×N矩阵，记录每一代的个体
ALLY=zeros(K,N);%K×N矩阵，记录每一代评价函数值
BESTX=cell(K,1);%细胞结构，每一个元素是M×1向量，记录每一代的最优个体
BESTY=zeros(K,1);%K×1矩阵，记录每一代的最优个体的评价函数值
k=1;%迭代计数器初始化
%% 第二步：迭代过程
while k<=K
%% 以下是交叉过程
newfarm=zeros(M,2*N);
Ser=randperm(N);%两两随机配对的配对表
A=farm(:,Ser(1));
B=farm(:,Ser(2));
P0=unidrnd(M-1);
a=[A(1:P0,:);B((P0+1):end,:)];%产生子代a
b=[B(1:P0,:);A((P0+1):end,:)];%产生子代b
newfarm(:,2*N-1)=a;%加入子代种群
newfarm(:,2*N)=b;???
for i=1:(N-1)
A=farm(:,Ser(i));
B=farm(:,Ser(i+1));
P0=unidrnd(M-1);
a=[A(1:P0,:);B((P0+1):end,:)];
b=[B(1:P0,:);A((P0+1):end,:)];
newfarm(:,2*i-1)=a;
newfarm(:,2*i)=b;
end
FARM=[farm,newfarm];
%% 选择复制
SER=randperm(3*N);
FITNESS=zeros(1,3*N);
fitness=zeros(1,N);
for i=1:(3*N)
Beta=FARM(:,i);
FITNESS(i)=FIT(Beta,D,c,m);
end
for i=1:N
f1=FITNESS(SER(3*i-2));
f2=FITNESS(SER(3*i-1));
f3=FITNESS(SER(3*i));
if f1<=f2&&f1<=f3
farm(:,i)=FARM(:,SER(3*i-2));
fitness(:,i)=FITNESS(:,SER(3*i-2));
elseif f2<=f1&&f2<=f3
farm(:,i)=FARM(:,SER(3*i-1));
fitness(:,i)=FITNESS(:,SER(3*i-1));
else
farm(:,i)=FARM(:,SER(3*i));
fitness(:,i)=FITNESS(:,SER(3*i));
end
end
%% 记录最佳个体和收敛曲线
X=farm;
Y=fitness;
ALLX{k}=X;
ALLY(k,:)=Y;
minY=min(Y);
pos=find(Y==minY);
BESTX{k}=X(:,pos(1));
BESTY(k)=minY;???
%% 变异
for i=1:N
if Pm>rand&&pos(1)~=i
AA=farm(:,i);
BB=GaussMutation(AA,LB,UB);
farm(:,i)=BB;
end
end
disp(k);
k=k+1;
end
%% 绘图
BESTY2=BESTY;
BESTX2=BESTX;
for k=1:K
TempY=BESTY(1:k);
minTempY=min(TempY);
posY=find(TempY==minTempY);
BESTY2(k)=minTempY;
BESTX2{k}=BESTX{posY(1)};
end
BESTY=BESTY2;
BESTX=BESTX2;
plot(BESTY,'-ko','MarkerEdgeColor','k','MarkerFaceColor','k','MarkerSize',2)
ylabel('函数值')
xlabel('迭代次数')
grid on

忘记写了，这个是源代码！谢谢谢谢！

‘拾’ k-means聚类算法的java代码实现文本聚类

K-MEANS算法:
k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

具体如下：
输入：k, data[n];
（1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1];
（2）对于data[0]….data[n], 分别与c[0]…c[n-1]比较，假定与c[i]差值最少，就标记为i;
（3）对于所有标记为i点，重新计算c[i]=/标记为i的个数；
（4）重复(2)(3),直到所有c[i]值的变化小于给定阈值。

算法实现起来应该很容易，就不帮你编写代码了。

阅读全文

热点内容

php用的软件发布：2025-07-05 14:06:22 浏览：743

没有权限访问计算机发布：2025-07-05 13:29:11 浏览：417

javaweb开发教程视频教程发布：2025-07-05 13:24:41 浏览：665

康师傅控流脚本破解发布：2025-07-05 13:17:27 浏览：225

java的开发流程发布：2025-07-05 12:45:11 浏览：669

怎么看内存卡配置发布：2025-07-05 12:29:19 浏览：271

访问学者英文个人简历发布：2025-07-05 12:29:17 浏览：820

1970linux 发布：2025-07-05 12:12:43 浏览：109

解压挑刺发布：2025-07-05 12:12:12 浏览：537

rarlinux压缩发布：2025-07-05 12:08:52 浏览：399

聚类算法源码

与聚类算法源码相关的资讯