数据挖掘中分类和聚类有什么区别?

分类是数据挖掘中一项非常重要的任务。使用分类技术,我们可以从数据集中提取描述数据类的函数或模型(也称为分类器),并将数据集中的每个对象归属于一个已知的对象类。从机器学习的角度来看,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有一个类标识符,通过学习可以形成表达数据对象与类标识符对应关系的知识。从这个意义上说,数据挖掘的目标是根据样本数据形成的类知识对源数据进行分类,进而预测未来数据的分类。分类具有广泛的应用,例如医疗诊断、信用卡信用评级和图像模式识别。

与分类技术不同,聚类是机器学习中的一种无监督学习。换句话说,聚类就是在事先不知道要分类的类的情况下,根据信息相似性原理对信息进行聚类的方法。聚类的目的是使属于同一类别的对象之间的差异尽可能小,而不同类别的对象之间的差异尽可能大。所以聚类的意义就是把观察到的内容组织成层次结构,把相似的东西组织在一起。通过聚类,人们可以识别密集和稀疏区域,从而发现数据属性之间的全局分布模式和有趣的关系。

数据聚类分析是一个蓬勃发展的领域。聚类技术主要基于统计方法、机器学习、神经网络等方法。典型的聚类技术是基于几何距离的聚类方法,如欧氏距离、Mahatma距离和Minkowski距离。聚类分析广泛应用于商业、生物、地理、网络服务等领域。