聚类
聚类概念
聚类基本概念
簇:数据对象集合
聚类与分类的差别
分类是有监督学习,聚类是无监督学习
特征属性
- 间隔尺度属性(可加可比):如.长度、温度。
- 有序尺度属性(不可加,但可比):如.等级变量(一等、二等、三等奖学金)
- 名义尺度属性(不可加不可比):如.性别、职业等
相似度计算
明考斯基距离
曼哈坦距离
欧几里德距离
聚类基本方法
聚类方法
- 基于模型
- 基于层次
- 基于划分
- 基于密度
K-means(K均值)
属于基于划分的聚类方法
输入:数据集D(包括n个对象),簇的个数K
输出:K个簇的集合
方法:
- 选择K个对象作为初始的簇的质心
- 计算对象与各个簇的质心的距离,将对象划分到距离最近的簇
- 更新每个簇的中心点
优点:聚类时间快
缺点:
- 必须事先指定聚类簇的个数
- 常常终止与局部最优