On Sampled Metrics for Item Recommendation 项目推荐的抽样度量研究

发布于 2021-02-04 11:12:24

Motivation:
数据量太大,所以工业界很多情况下都会选择采样。但是采样后计算的指标,是否与不采样的一致呢,这个问题本文从理论上去证明。

Contribution:
本文作者从理论上证明采样对验证带来的bais,以及修正方法。

  1. 采样前采样后各项指标的比较,可以容易得出相反的结论。

image.png

  1. 采样数据越多(样本量越接近100%),则指标也越接近真实值。

image.png

  1. 理论证明部分请见原文。
  2. 作者建议可以使用多采样几次,比如随机种子或者N折交叉验证,去规避这个问题。

实验

  1. Dataset

①real dataset;
②Movielens 1M;

  1. 实验结果

image.png

image.png

0 条评论

发布
问题