聚类:把物理对象或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。比较常用的聚类算法有K-Means、DBSCAN等几种,基本思路都是利用每个向量之间的“距离”——空间中的欧氏距离或者曼哈顿距离,从远近判断是否从属于同一类别。
分类:输入一个“样本”,在出口期望得到一个分类的“标签”。分类是机器学习中使用的最多的一大类算法,我们通常也喜欢把分类算法叫做“分类器”。
看起来好像都是分类,那么他们的区别在哪里?
在用机器做聚类学习的时候,我们每种算法都对应有相应的计算原则,可以把输入的各种看上去彼此“相近”的向量分在一个群组中。然后下一步,人们通常更有针对性地去研究每一组聚在一起的对象所拥有的共性以及那些远离各个群组的孤立点
——这种孤立点研究在刑侦、特殊疾病排查等方面都有应用。
看出来了吗?聚类是标准是模糊的,动态的,允许孤立点的存在,而分类的结果则是具有明确的界限。