机器学习期末复习——第九章
一、重点知识点回顾
1. 原型聚类
原型聚类(Prototype-based Clustering)假设聚类结构能够通过一组原型来刻画。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解。
(1)k均值聚类
给定样本集D={x1,x2,...,xm},k均值算法针对聚类所得簇划分C={C1,C2,...,Ck}最小化平方误差:
E=i=1∑kx∈Ci∑∥x−μi∥22
其中μi=∣Ci∣1∑x∈Cix是簇Ci的均值向量。
(2)学习向量量化
一般聚类算法都是无监督学习,然而学习向量量化算法是监督学习算法。
(3)高斯混合聚类
高斯混合聚类采用概率模型来表达聚类原型。
2. 密度聚类
密度聚类(Density-based Clustering)假设聚类结构能够通过样本分布的紧密程度来确定。通常情况下,密度聚类算法从样本密度的角度来考察样本之间的可连续性,并且基于可连接样本不断扩展聚类簇来获得最终的聚类结果。
密度聚类和原型聚类的区别可如下图所示:
(1)DBSCAN
DBSCAN是一种著名的密度聚类算法,它基于一组“邻域”参数来刻画样本分布的紧密程度。给定数据集D={x1,x2,...,xm},定义以下几个概念:
- 核心对象:直观理解的话就是我们的样本考察对象,如图9.8中的x1;
- ϵ-邻域:见图9.8中的虚线;
- 密度直达:若xj位于xi的ϵ-邻域当中,且xi是核心对象,则称xj由xi密度直达;
- 密度可达:对xi与xj,若存在样本序列p1,p2,...,pn,,其中p1=xi,pn=xj,且pi+1由pi密度直达,则称xj由xi密度可达;
- 密度相连:对xi与xj,若存在xk使得xi与xj均由xk密度可达,则称xi与xj密度相连。
基于上述概念,DBSCAN将簇定义为:由密度可达关系导出的最大的密度相连的样本集合。其训练流程如下图所示:
3. 层次聚类
层次聚类(Hierarchical Clustering)试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。
(1)AGNES算法
AGENS算法是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。
二、重点题目回顾