主题
  • 默认模式
  • 浅蓝色模式
  • 淡绿色模式
  • 深夜模式

聚类概念

聚类(Clusters,也称'簇')是通过算法将相似数据样本划分形成的分组集合。

在图表中聚集在一起的数据点,通常可以被分类到不同的聚类中。

在下图中,我们可以识别出3个不同的聚类组:


聚类识别

聚类中往往蕴含着大量有价值的信息,但由于其形态具有多样性(如球形、流形、密度不均等),我们需要系统化的识别方法。这正是聚类识别(Identifying Clusters)需要解决的问题。

聚类识别主要有两种方法体系:

1. 可视化识别

  • 适用场景:数据维度≤3时直接观察
  • 典型技术:散点矩阵、t-SNE降维投影、密度热力图
  • 优势:直观呈现聚类空间分布特征

2. 算法识别

  • 核心原理:通过数学建模量化样本相似度
  • 方法分类:划分式(如K-Means)、层次式(如AGNES)、密度式(如DBSCAN)
  • 输出形式:明确给出簇标签和边界

聚类(技术)

聚类(Clustering)是一种无监督学习技术,其核心目标是将数据集中的样本划分为若干组(称为"簇"或"聚类"),使得:

1. 将相似数据归集到同一组

  • 同一簇中的样本彼此高度相似
  • 常用度量:欧氏距离、余弦相似度

2. 将非相似数据划分到不同组

  • 不同簇的样本具有显著区别
  • 典型指标:轮廓系数、簇间距离

聚类方法

根据数据组织原理的不同,主流聚类方法(Clustering Methods)可分为四大类型,每类方法各有其独特的优势和适用场景:

1. 密度聚类(Density Method)

  • 密度聚类方法认为,高密度区域内的数据点间具有更高的相似性,而低密度区域中的点则差异显著;该方法不仅精度较高,还能动态合并相邻稠密区域形成聚类。
  • 其两大典型算法是DBSCANOPTICS

2. 层次聚类(Hierarchical Method)

  • 层次聚类方法通过树形结构逐步构建聚类,新聚类基于已有聚类合并或分裂生成。
  • 其两大典型算法是CUREBIRCH

3. 划分方法(Partitioning Method)

  • 网格聚类方法通过将数据划分为有限数量的网格单元来构建网格结构。
  • 其两大典型算法为CLIQUESTING

4. 网格方法(Grid-based Method)

  • 划分式聚类方法通过将数据对象划分为k个互不重叠的簇来构建聚类,其中每个分区即构成一个独立簇。
  • 其代表性算法为CLARANS

相关系数

相关系数(Correlation Coefficient,r)用于量化散点图中xy变量之间线性关系的强度与方向。

相关系数r的取值范围严格限定在 -1 到 +1 之间:

-1.00 完全负相关 负线性关系
-0.70 高度负相关 负线性关系
-0.50 中度负相关 负线性关系
-0.30 弱负相关 负线性关系
0 无线性关系 无线性关系
+0.30 弱正相关 正线性关系
+0.50 中度正相关 正线性关系
+0.70 高度正相关 正线性关系
+1.00 完全正相关 正线性关系

完全正相关 +1.00:

完全负相关 -1.00:

高度正相关 +0.61:

无相关:



评论区 0
发表评论
教程介绍
机器学习是人工智能的子领域,通过算法让计算机从数据中自动学习规律,并做出预测或决策。
29 章节
132 阅读
0 评论