分布的相似性(距离)用什么模型比较好?

首先,一个向量也可以认为有多个维度,每个向量的元素对应一个维度。其次,参考其他答案,可以根据需要选择多种相似度。建议先用KL散度,再比较Wasserstein距离。最后介绍一下我现在在做的研究,度量学习。首先要明确,度量学习是半监督学习,在没有现有监督信息库支持的情况下,请不要继续阅读。度量学习的核心是通过机器学习的方式,根据已有的监督信息,学习一个新的用户自定义度量,使新的度量比原来的距离更好,更符合数据特征。使用的方法是最小化损失函数。以欧几里德距离为例,d(x,y)=||x-y||2,新的度量可以表示为d (f (x),f (y)) = ||| GX-gy || 2,G为映射矩阵,即我们需要学习不同特征维度的偏移权重。像这样找出两个或多个向量的相似性。有很多方式可以选择,关键看楼主的“好”的标准是什么。正如楼主所说,事实上,在很多情况下,横坐标可能具有重要的物理、金融或商业意义。所以在衡量“好”的时候,一定要对它的背景知识有所了解。比如发动机转速在3000-5000转可能是正常的,8000转以后可能就不正常了;因此,每个元素的权重很可能是不同的。此外,某些值在一个方向上的变化可能是正常的,而在另一个方向上的变化可能表明存在显著差异。没有背景知识,很难给出一个所谓“好”的方法。对于1维序列,有许多方法可以用于相似性比较,如欧氏距离、加权欧氏距离、变异惩罚、相关性比较等。在生物信息学、搜索引擎等领域都有应用。建议多了解需求的背景知识,明确“好”的标准,然后由易到难尝试各种方法的效果。从工程和商业的角度来看,简单才是王道,复杂花哨的数学工具在某些特定场合可能真的不太好用。