数据挖掘中分类和聚类有什么区别？

分类是数据挖掘中一项非常重要的任务。使用分类技术，我们可以从数据集中提取描述数据类的函数或模型(也称为分类器)，并将数据集中的每个对象归属于一个已知的对象类。从机器学习的角度来看，分类技术是一种有指导的学习，即每个训练样本的数据对象已经有一个类标识符，通过学习可以形成表达数据对象与类标识符对应关系的知识。从这个意义上说，数据挖掘的目标是根据样本数据形成的类知识对源数据进行分类，进而预测未来数据的分类。分类具有广泛的应用，例如医疗诊断、信用卡信用评级和图像模式识别。

与分类技术不同，聚类是机器学习中的一种无监督学习。换句话说，聚类就是在事先不知道要分类的类的情况下，根据信息相似性原理对信息进行聚类的方法。聚类的目的是使属于同一类别的对象之间的差异尽可能小，而不同类别的对象之间的差异尽可能大。所以聚类的意义就是把观察到的内容组织成层次结构，把相似的东西组织在一起。通过聚类，人们可以识别密集和稀疏区域，从而发现数据属性之间的全局分布模式和有趣的关系。

数据聚类分析是一个蓬勃发展的领域。聚类技术主要基于统计方法、机器学习、神经网络等方法。典型的聚类技术是基于几何距离的聚类方法，如欧氏距离、Mahatma距离和Minkowski距离。聚类分析广泛应用于商业、生物、地理、网络服务等领域。