简单匹配系数
简单匹配系数(英语:simple matching coefficient,缩写SMC),又称为兰德相似系数(Rand similarity coefficient),是用于比较样本信合之间相似性与多样性的统计量。[1]
A | |||
---|---|---|---|
0 | 1 | ||
B | 0 | ||
1 |
假设两个对象A与B分别有n个二值属性,则SMC的定义为:
其中
- 表示A与B的数值都为1的属性数量;
- 表示A的数值为0、而B的数值为1的属性数量;
- 表示A的数值为1、而B的数值为0的属性数量;
- 表示A与B的数值都为0的属性数量。
类似地,可以定义简单匹配距离(simple matching distance,缩写SMD)为,用于量度样本集合间的不相似度。[2]
SMC与汉明相似度间呈线性关系:。而其与欧基里得距离间的关系为,其中n为属性总数。SMC与雅卡尔指数也很相似,区别在于在雅卡尔指数的定义中分子与分母都没有项。