网络资源的拷贝粘贴 备份参考之用


3 February 2007

Recall, Precision & F

信息提取技术主要采用以下三个评价指标:
即查全率(Recall)和查准率(Precision) 以及F值。

查全率是测量被正确提取的信息的比例,而查准率用来测量提取出的信息中有多少是正确的。

计算公式如下(P是查准率,R是查全率):


Precision = 提取出的正确信息条数 / 提取出的信息条数
Recall = 提取出的正确信息条数 / 样本中的信息条数

两者取值在0和1之间,数值越接近1,查全率或查准率就越高。
下面是查全率和查准率的加权几何平均值,F值评价方法:

F = (b^2 + 1) * PR / b^2P + R


其中b 是一个预设值,是P和R的相对权重,

b大于1时表示P更重要,b小于1时表示R更重要。

通常设定为1,表示二者同等重要。

这样用F一个数值就可看出系统的好坏,F值也是越接近1越好。

另:查准率和召回率在作为搜索引擎性能的度量时:

Precision = 搜索到的相关文档数 / 搜索到的全部文档数
Recall = 搜索到的相关文档数 / 系统全部相关文档数

No comments:

Google