评价指标详解(十个评价指标最新详解)

随着移动互联网的飞速发展,网络中的信息量呈指数式增长,大量的商品、资讯、知识、视频、音乐等内容和资源可供用户选择,信息过载问题日益突出。而推荐系统是解决信息过载最有效的方式,因此,基于大数据的推荐系统已经成为了移动互联网的研究热点。

其实推荐系统在上世纪末就已经出现了,亚马逊在1998年就通过基于ITEM的协同过滤技术,为数百万客户提供商品选购建议。而学术界对于推荐系统的研究也一直在进行着。

虽然随着云计算、大数据、人工智能等新兴科技的发展,算力、数据和算法的提升,使推荐系统的性能越来越好,但针对推荐系统的评价体系则基本保持了稳定,只是各项指标的精度在不断提升。

了解推荐系统,可以从认识推荐系统的评价指标开始,主要包括以下十点:

1.用户满意度:

用户作为推荐系统的重要参与者,其满意度是评测推荐系统的最重要指标。有时,互联网企业会通过调查问卷的方式,或者是简单的满意或不满意的按钮,来获得用户的满意度反馈。但更多的时候,用户满意度是通过对用户某些行为的统计进行量化分析后计算出来的。比如在移动电商应用中,用户如果购买了推荐的商品,就表示他们在一定程度上满意系统的推荐结果,而购买转化率就可以用于度量用户的满意度。此外,点击率、分享率、收藏率、停留时间等指标,也都可能在度量用户满意度方面具备一定的权重。

2. 预测准确度

预测准确度只是泛泛的名称,具体要看你希望预测什么内容,例如预测用户对系统推荐的电影的观后评分?或是预测系统推荐的歌曲列表中,用户最终选择了几首加入到了他的歌单?但总体来说,预测准确度是度量一个推荐系统或者推荐算法在预测用户行为的准确性方面最重要的指标。提高预测准确度通常依赖于算法和模型精度的提升,所以更具备学术层面的研究价值。大数据、机器学习等热门技术,与预测准确度之间的关系极为密切,彼此之间互相促进,技术的发展推动了预测准确度的提升,而似乎永无止境的对预测准确度的提升需求,也带动了技术层面的不断投入。

3. 覆盖率

覆盖率用来描述一个推荐系统对长尾内容或商品的发掘能力。关于覆盖率的定义,最简单的理解是推荐系统能够推荐出来的物品,占平台中全部物品的比例。以图文内容推荐为例,自媒体作者可能会很关心他们的内容有没有被推荐给读者,而对于覆盖率达到100%的推荐系统,则意味着每篇内容都被推荐给了至少一个用户。但对于仅提供热门文章排行榜的系统来说,例如一些大学论坛的首页可能只显示每日十大文章,这样的推荐系统,它的覆盖率是很低的,因为它只会推荐那些被大量阅读的文章,而这些文章在所有文章中的占比非常小。

4. 多样性

用户的兴趣是非常广泛的,在一个视频应用中,用户可能既喜欢看烧脑电影,也喜欢看动作大片。那么,为了满足用户广泛的兴趣,推荐列表需要能够覆盖用户不同的兴趣领域,即推荐结果需要具有多样性。而想提升推荐系统的多样性,那么就需要在较大的时间跨度上去识别和理解用户的兴趣。

5. 新颖性

所谓新颖,就是指给用户推荐那些他们以前没有听说过的内容或商品,例如在视频应用中应该尽可能多地向用户推荐他们没有看过的电影。而考虑到很多用户在某个应用中的使用粘性可能并不高,例如一个用户可能同时是多个视频应用的用户,所以仅仅依靠用户在自己系统中的行为记录来保证推荐的新颖性是不够的。除此之外比较简单方法是基于内容或商品的平均流行度去进行推荐,因为越不热门的东西越可能让用户觉得新颖。不过,向用户推荐不流行的内容或商品,其实是牺牲了一定的推荐精度的,所以我们需要权衡该指标与其它指标之间的平衡,这不仅在于技术层面的考量,可能也在于商业层面的考量。

6. 惊喜度

所谓惊喜度,简单的解释就是,如果推荐结果和用户的历史兴趣不相似,但却能够让用户觉得满意,那么就可以说推荐结果的惊喜度很高。想要兼顾推荐系统的惊喜度并不是一件容易的事情,因为这意味着需要降低推荐结果和用户历史兴趣的相似度,所以可能会对预测准确度带来一定的挑战。但毫无疑问,用户需要惊喜,这会极大提升用户的满意度和使用体验,所以推荐系统对惊喜度的追求只会不断提高,且还需要在不影响预测准确度的前提下来实现。

7. 信任度

所谓信任度,是指用户对推荐系统是否信任,是否愿意“听取”推荐系统的“建议”,而不是几乎无视推荐频道或推荐列表的存在。信任度对推荐系统的意义非常重大,因为基于用户的信任推荐的内容和商品,更能够让用户产生兴趣;而如果失去了用户的信任,那么你推荐的任何内容和商品,都会让用户觉得像是广告,而难以产生兴趣。这就如同两个人向你分别推荐同一件商品,一个人是你的朋友,而另一个人不是,你会听谁的?相比其它指标,信任度多少有些感性,因此提升的方法也很多,例如可以考虑增加推荐系统的透明度,想办法让用户了解推荐系统的运行机制,并得到用户的认可,甚至可以通过一些自媒体做一些宣传;此外,例如在你推荐的内容概要中,提示用户“你的xx个朋友已经阅读过了”,也是一种间接提升推荐系统信任度的方法。

8. 时效性

推荐系统的时效性包括两个方面,一方面是,在很多应用中,因为内容具有很强的时效性,所以需要在内容还具有时效性时就将它们推荐给用户;而另一方面是,用户的需求可能也具有一定的时效性,例如当一个用户刚刚在移动电商应用中下单购买了一部新手机时,如果推荐系统能够立即给他推荐相关配件,那么肯定比第二天再给用户推荐相关配件更有价值,转化率更高。这两个方面,前者更依赖被推荐的内容本身,而后者则需要建立在对用户行为实时分析的基础上。

9. 健壮性

任何一个能带来利益的算法系统都会被人攻击,例如搜索引擎的作弊和反作弊斗争就异常激烈,因为如果能让自己的内容或商品排在匹配某个搜索词的搜索结果的第一位,那么就会带来极大的用户流量,也就意味着巨大的商业利益。推荐系统也会遇到同样的作弊问题,而健壮性(即鲁棒性)指标,则可以用来衡量了一个推荐系统抗击作弊的能力。强化推荐系统的健壮性,比较重要的方式就在于提升剔除噪声数据的能力,毕竟大规模的攻击,例如利用水军攻击影评网站的评分系统,其用户行为与正常用户会是有明显区别的,所以想提升系统的健壮性,就应该最大限度地识别出这些噪声数据,并把他们的影响降到最低。

10. 商业目标

前面的九个指标,有时候很难完全兼顾,甚至于有些指标在某种程度上会形成一定程度的互斥关系。而如何平衡这些指标,则还需要从经济效益和商业目标层面进行综合考虑。此外,对于不同阶段的产品,例如有的产品处于打磨试错积累种子用户阶段,有的产品处于烧钱打市场阶段,有的产品处于规模化盈利阶段,其推荐系统的策略也是会有所差异的。

关于推荐系统的更多内容,这里有一本非常经典的[推荐系统实践],比较完整地科普了推荐系统相关的知识点,也涉及到了一些基本算法,有兴趣的朋友可以根据下面线索获取。

(0)
上一篇 2022年7月8日
下一篇 2022年7月8日

相关推荐