提要多元统计聚类办法已被广泛应用于自然科学和社会科学的每个范围,而在现实处置多元数据聚类剖析中,不能离开统计软件的支持;R软件因为其免费、开源、强大的统计剖析及其完美的作图功能已得到更多人的关注与应用;本文结合实例介绍了R软件在多元统计系统剖析中的应用。
引言
多元统计剖析是统计学的一个要紧分支,也称多变量统计剖析;在现实日常,受多种指标一同用途和影响的现象很多存在,多元统计剖析就是研究多个随机变量之间相互依靠关系及其内在统计规律的要紧学科,其中最常用聚类剖析办法,因为多元统计聚类剖析办法一般涉及复杂的数学理论,一般没办法用手工计算,需要有计算机和统计软件的支持。
在统计软件方面,常见的统计软件有SPSS、SAS、STAT、R、S|PLUS,等等。R软件是一个自由、免费、开源的软件,是一个具备强大统计剖析功能和出色统计制图功能的统计软件,现已是国内外海量统计学者喜欢的数据剖析工具。本文结合实例介绍R软件在多元统计聚类剖析中的应用。
1、系统聚类剖析
聚类剖析又称群剖析,它是研究(样品或指标)分类问题的一种多元统计办法,所谓类,通俗地说,就是指相似元素的集合。在社会经济范围中存在着很多分类问题,譬如若对某些大城市的物价指数进行考察,而物价指数不少,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零价格格指数等等。因为要考察的物价指数不少,一般先对这类物价指数进行分类。总之,需要分类的问题不少,因此聚类剖析这个有用的工具愈加遭到大家的看重,它在很多范围中都得到了广泛的应用。
聚类剖析内容很丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类剖析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。选择距离近期的两类合并成一个新类,计算新类和其他类(各目前类)的距离,再将距离近期的两类合并。如此,每次合并降低一类,直至所有些样品都归成一类为止。
系统聚类法的基本步骤:
1、计算n个样品两两间的距离。
2、架构n个类,每一个类只包括一个样品。
3、合并距离近期的两类为一新类。
4、计算新类与各目前类的距离。
5、重复步骤3、4,合并距离近期的两类为新类,直到所有些类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类办法:
1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。
2、基于R语言的系统聚类剖析程序
R软件及其有关包提供了各种聚类办法,主如果系统聚类办法、迅速聚类办法、模糊聚类办法,常见的是系统聚类办法。
R软件达成系统聚类的程序如下:
hclust(d,method=complete,members=NULL)
其中,d是由dist构成的距离结构,具体包含绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默觉得欧氏距离;method包含类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。
3、应用举例
表1是山东2008年各市居民家庭平均每个人全年消费性支出,借助所给数据对各市进行系统聚类。(表1)
R语言程序如下:
X|read.delim(clipboard,header=T)
row.names(X)|c(济南,青岛,淄博,枣庄,东营,烟台,潍坊,济宁,泰安,威海,日照,莱芜,临沂,德州,聊城,滨州,菏泽)
d|dist(scale(X))
hc1|hclust(d,single)#最短距离法
hc2|hclust(d,complete)#最长距离法
hc3|hclust(d,median)#中间距离法
hc4|hclust(d,ward)#Ward法
opar|par(mfrow=c(2,2))
plot(hc1,hang=|1);plot(hc2,hang=|1)
plot(hc3,hang=|1);plot(hc4,hang=|1)
输出结果(图1)
结果剖析
由图1可以看出,不同办法的分类大体一样,结合山东具体实质状况,最长距离法分类成效较好。
在系统聚类剖析中,借助R软件是最便捷、最简单、最容易学的,而且依据不一样的状况,可以自己修改其他人的程序,比较便捷;可以在处置多元数据聚类剖析中,借助R软件具备非常大的优势。