有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

数据集

数据集(Data Set)是数据的集合,在机器学习领域,通常指通过专门搜集、标注好的数据集合。有时也称样本集。

样本

样本(Sample)是数据集/样本集中的一个事件或对象。在人脸识别中,一张人脸图片就是一个样本。

训练集

训练集(Training Set)是事先标注好的样本集,用于训练模型。测试集与训练集须严格区分使用。

测试集

测试集(Test Set)是事先标注好的样本集,用于测试已训练好的模型效果。

相似度分数与匹配得分

相似度分数与匹配得分是 人脸比对人脸搜索 等服务的判断依据,分数越高代表人脸越相似。通常会提供误识率为千分之一、万分之一的分数建议值,高于建议值则说明在对应误识率下建议结论为同一人,反之则不是同一人。

学习与训练

学习(Learning)与训练(Training)是从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。

正样本、负样本

正负样本是相对的概念。在人脸识别中,假设有10张人脸图片,其中4张为 A 人,6张为 B 人。若目的是识别 A,则此时正样本数量为4,负样本数量为6;若目的是识别 B,则此时正样本数量为6,负样本数量为4。

召回率或查全率

人脸识别中,若测试集中正样本(来自同一个人的人脸图像)的数量是 P,负样本(来自不同人的人脸图像)的数量是 N;算法正确判定的正样本数量是 TP,算法错误判定的正样本数量是 FN,满足 TP + FN = P;算法正确判定的负样本数量是 TN,算法错误判定的负样本数量是 FP,满足 TN + FP = N,则:召回率或查全率(Recall) = TP / P * 100%。

误识率或错误接受率

误识率或错误接受率 = FP / N * 100%。

准确率或查准率

准确率或查准率(Precision) = TP / ( TP + FP ) * 100%。

TopN 命中率

在人脸搜索中,TopN 命中率是指身份正确的人脸排在前 N 位的概率。若进行搜索的次数为 M 次,其中身份正确的人脸排在前 N 位的次数为 TN,则 TopN 命中率 = TN / M * 100%。


http://www.vxiaotou.com