推荐算法之基于用户的协同过滤算法
协同过滤是推荐算法中最基本的算法,主要分为基于用户的协同过滤算法和基于物品的协同过滤算法。
这篇文章主要介绍基于用户的协同过滤算法,简单来说,要给用户u作推荐,那么只要找出那些和u之前的行为类似的用户,即和u比较像的用户,把他们的行为推荐给用户u即可。所以基于用户的系统过滤算法包括两个步骤:1)找到和目标用户兴趣相似的用户集合 2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。
第一步的关键点在于计算用户之间的相似度,相似度一般通过Jaccard公式或者余弦相似度即可求得,及计算共有行为所占的比重(具体式子google就行,csdn插入公式不方便。。。),所以目前而言,计算用户相似度的复杂度是O(N*N), N为用户数量,在用户数比较大的网站中不实用,比如亚马逊用户数量肯定N>100000,那么这样的复杂度是不可接受的。
第一步时间复杂度的改进方法:因为很多用户间其实相似度是为0的,如果看成是一个N*N的矩阵的话,肯定是个稀疏矩阵,那么我们其实没有必要浪费计算量在这些0上。我们可以建立物品到用户的倒查表,及可以根据物品找到所有对该物品有过行为的用户,然后遍历各物品,对一个物品然后找到对该物品有过行为的用户,然后计算这些用户间的行为相似度(共有行为+1,同时计算这些用户的行为数),最后计算两用户间的公有行为占各自行为的比重。
第一步计算相似度的改进方法:举个例子:如果两人都买过《新华辞典》,并不能说明这两人想像,因为这本书基本上人人都会买,而如果这两人都买过《机器学习》,那么我们可以肯定,这两人在这方面有相同的兴趣爱好,也就是说,越是对冷门物品有同样的行为,就越说明用户的相似性,即在计算用户相似性的时候,需要降低热门物品的影响(通过计算流行度来实现,然后用1/N(i)来计算公共行为比重,N(i)表示流行度,这样,流行度高的物品所占比重就比较低)
第二步则比较简单,选出K个和用户u最相似的用户,把他们喜欢过的物品并且用户u没有喜欢过的物品推荐给u即可。这里面K的选择非常重要。K越大,推荐的结果就越热门,流行度就越高,同时覆盖率越低,因为基本推荐的都是流行的物品
本文作者 wangyuquanliuli
-
微信创始人张小龙首次公开演讲(官方无删减版)
微信创始人张小龙首次公开演讲(官方无删减版) -
如何通过APP看到产品战略层面
产品经理拿到一款产品的时候,不能只能看到表面信息,而是要能看到产品背后的信息。 -
基于用户的“真需求”创新产品
产品创新是保证企业在竞争激烈的市场上长久生存的关键,今天,我们就围绕产品创新和用户研究分享一些看法。 -
有一种交互设计研究验证叫“设计走查”
如何在最短的时间内对自己的产品做出检验,确保其在定位、设计、营销计划等多个环节,在可视范围内是正确的,需要一套比较科学、完善的方法去做出检测。 -
你为什么离不开微信?
张小龙说用完即走,你却爱不释手; 到底是什么让你离不开微信? -
移动互联时代APP的发展方向
现在我们已经走上了移动互联网时代,无论是企业还是公司,都会经过网络竞争中争取有利的优势,较为传统的产品竞争逐渐向互联网竞争转型,出现了很多数据云大数据等等 -
AI 时代产品经理的机遇和挑战
AI 时代产品经理的机遇和挑战 -
前1%与前10%的产品经理差距在哪?
前1%与前10%的产品经理差距在哪? -
你有哪些策略应对不断的需求变更?
你有哪些策略应对不断的需求变更? -
如何运营天猫【十亿俱乐部】商家页面?
如何运营天猫【十亿俱乐部】商家页面?

