0%

8、聚类

聚类

聚类概念

聚类基本概念

簇:数据对象集合

聚类与分类的差别

分类是有监督学习,聚类是无监督学习

特征属性

  • 间隔尺度属性(可加可比):如.长度、温度。
  • 有序尺度属性(不可加,但可比):如.等级变量(一等、二等、三等奖学金)
  • 名义尺度属性(不可加不可比):如.性别、职业等

相似度计算

明考斯基距离

曼哈坦距离

欧几里德距离

聚类基本方法

聚类方法

  • 基于模型
  • 基于层次
  • 基于划分
  • 基于密度

K-means(K均值)

属于基于划分的聚类方法

输入:数据集D(包括n个对象),簇的个数K

输出:K个簇的集合

方法:

  • 选择K个对象作为初始的簇的质心
  • 计算对象与各个簇的质心的距离,将对象划分到距离最近的簇
  • 更新每个簇的中心点

优点:聚类时间快

缺点:

  1. 必须事先指定聚类簇的个数
  2. 常常终止与局部最优