K-Means聚类算法-白红宇

K-Means聚类算法

阅读量：3897 次

发布时间：2019-05-23

本文共 867 字，大约阅读时间需要 2 分钟。

K-Means聚类算法

import pandas as pd

#参数初始化

inputfile = ‘E:/python数据挖掘程序/chapter5/demo/data/consumption_data.xls’ #销量及其他属性数据

outputfile = ‘…/tmp/data_type.xls’ #保存结果的文件名

k = 3 #聚类的类别

iteration = 500 #聚类最大循环次数

data = pd.read_excel(inputfile, index_col = ‘Id’) #读取数据

data_zs = 1.0*(data - data.mean())/data.std() #数据标准化

from sklearn.cluster import KMeans

model = KMeans(n_clusters = k, n_jobs = 4, max_iter = iteration) #分为k类，并发数4

model.fit(data_zs) #开始聚类

#简单打印结果

r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目

r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心

r = pd.concat([r2, r1], axis = 1) #横向连接（0是纵向），得到聚类中心对应的类别下的数目

r.columns = list(data.columns) + [u’类别数目’] #重命名表头

print®

#详细输出原始数据及其类别

r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1) #详细输出每个样本对应的类别

r.columns = list(data.columns) + [u’聚类类别’] #重命名表头

r.to_excel(outputfile) #保存结果

转载地址：http://voyen.baihongyu.com/

你可能感兴趣的文章

Liferay研究之十二：对Liferay框架的几点分析总结收藏

查看>>

Eclipse快捷键大全(转载)

查看>>

Google爬虫如何抓取JavaScript的？

查看>>

SAP HANA SQL/MDX及TCP/IP端口介绍

查看>>

SAP HANA使用XS和HTTP创建proxy

查看>>

SAP HANA SLT在表中隐藏字段并传入HANA的方法

SAP HANA查看某一用户最后登录时间及无效连接次数

查看>>

讲讲BW/4 HANA和BW on HANA的区别

查看>>

SAP HANA CREATE SCHEMA

查看>>

SAP HANA CREATE TABLE

SAP HANA SQL GROUP BY / ORDER BY / OVER / CASE

查看>>

gethostbyname和gethostbyaddr的用法

syslog(),openlog(),closelog()

查看>>

Ubuntu安装后的一些配置

查看>>