推荐系统的多彩世界

一个推荐系统的精彩概述,描述了如何向市场提供有效的推荐。

作者:Parul Pandey
编译:ronghuaiyang

导读

一个推荐系统的精彩概述,描述了如何向市场提供有效的推荐。

推荐系统的多彩世界

很多时候,人们不知道他们想要什么,知道你展示给他们看:史蒂夫·乔布斯

这是《The Long Tail》这本书的摘录,作者Chris Anderson:“1988年,一个名叫乔·辛普森的英国登山者写了一本书叫《Touching the Void》,写了秘鲁安第斯山脉附近的一个悲惨的死亡。它得到了很好的评价,但是,仅仅是适度的成功,它很快就被遗忘了。十年后,一件奇怪的事情发生了。Jon Krakauer写了本《Into Thin Air》,这是另一本讲述登山悲剧的书,引起了出版界的轰动。突然间,《Touching the Void》又开始销售了”。

对《Touching the Void》的需求如此之高,以至于过了一段时间,它的销量甚至超过了《Into Thin Air》。但这里到底发生了什么?事实证明,由于这两本书都基于同一个主题,亚马逊认为喜欢《Into Thin Air》的读者也会喜欢Touching the Void》。当人们接受了他们真正喜欢这本书的建议,并因此写了积极的评论,这导致更多的销售最终导致了更多的推荐,从而进入一个积极的反馈循环。这就是推荐系统的力量。

推荐系统

推荐引擎试图向人们推荐产品或服务。在某种程度上,推荐系统试图通过向人们提供他们最可能购买或使用的建议来缩小人们的选择范围。从亚马逊到Netflix,从Facebook到Linkedin,推荐系统几乎无处不在。事实上,亚马逊收入的很大一部分来自推荐。像Youtube和Netflix这样的公司依靠他们的推荐引擎来帮助用户发现新的内容。以下是我们日常生活中的一些建议:

  • Amazon

亚马逊利用其数百万客户的数据来确定哪些商品通常是一起购买的,并据此提出建议。亚马逊网站的推荐是基于明确提供的评级、购买行为和浏览历史。

推荐系统的多彩世界

我本来想买《Show Dog》,结果也买了《The composite effect》!

  • Linkedin

Linkedin利用你过去的经验、当前的职位的数据向你推荐可能的工作。

推荐系统的多彩世界

  • Netflix

当我们给一部电影打分或在Netflix上设置自己的偏好时,Netflix会利用这些数据以及其他数百名用户的类似数据来推荐电影和节目。这些评级和动作会被Netflix用来提出建议。

推荐系统的多彩世界

  • Facebook

像Facebook这样的推荐系统并不直接推荐产品,而是推荐相关联的人。

推荐系统的多彩世界

除此之外,Spotify、Youtube、IMDB、Trip Advisor、Google News,等众多平台不断地给出适合我们需求的建议。

为什么要用推荐系统

今天,网上商店蓬勃发展,我们几乎可以通过点击鼠标得到任何物品。然而,在实体店时代,实体店的空间有限,所以店主只展示最受欢迎的商品。这意味着很多产品甚至没有被展示,即使他们有很好的质量,如书籍或CD。简而言之,店主必须对商品进行预过滤。

然而,在线购物行业改变了这种情况。因为有无限的空间,所以无需预过滤。相反,这导致了一种现象,后来被称为长尾效应。

推荐系统的多彩世界

这一效应意味着,无论是在网上还是线下商店,都很难找到受欢迎的产品。相反,不那么受欢迎的产品很多,而且只能在网上商店找到,它们最终构成了“长尾”。然而,不受欢迎的产品也可能是好的,在网站上找到这样的产品是一项艰巨的任务,需要某种形式的过滤。这样的过滤器实际上构成了一个推荐系统。

推荐系统问题的形式

创建推荐系统主要是为了解决以下两个问题的其中之一:

  • 预测版本

此版本用于预测用户项目组合的评级值。在这种情况下,我们拥有由用户给出的评分组成的训练数据。其目的是利用这些数据,预测用户未与之交互的项目的评级。

  • 排序版本

坦率地说,没有必要预测用户对特定项目的评分来做出推荐。在线零售商或电子商务公司并不太在意用户的预测。相反,他们更感兴趣的是列出一份有限的清单,列出最好的礼物送给某个人。此外,客户不想看到系统预测他们对某件商品的评分的能力,他们只想看到他们可能喜欢的东西。

推荐引擎的成功取决于它为人们找到最佳推荐的能力,所以把重点放在人们喜欢的东西上是有意义的,而不是我们预测人们讨厌的东西的能力。

推荐系统的目的

推荐系统的多彩世界

只有相关的建议才有价值

推荐系统的最终目标是增加公司的销售。要做到这一点,推荐系统应该只向用户显示或提供有意义的项目。Charu C Aggarwal在他的著作《recommendation Systems》中总结了推荐引擎的四个期望目标:

  • 相关性

推荐的项目只有在与用户相关时才有意义。用户更有可能购买或消费他们感兴趣的商品。

  • 新颖性

除了相关性,新颖性也是一个重要因素。如果用户以前没有见过或消费过推荐的商品,那么推荐的商品将更有意义。

  • 意外性

有时推荐一些出人意料的商品也能促进销售。然而,意外与新颖是不同的。引用作者的话:

“如果附近新开了一家印度餐馆,那么向通常吃印度菜的顾客推荐这家餐馆就是新颖的,但不一定是意外的。另一方面,当相同的用户被推荐埃塞俄比亚食物时,用户并不知道这种食物可能会吸引她,那么推荐是意外的”.

  • 多样性

此外,增加建议的多样性也同样重要。简单地推荐彼此相似的项目是没有用的。

推荐系统的工作

那么推荐系统是如何工作的呢?假设亚马逊想给你展示图书类别中的前10条推荐。在这里,亚马逊的推荐系统将从你的一些数据开始,从而找出你的个人品味和兴趣。然后,它会将这些关于你的数据与其他像你一样的人的集体行为结合起来,推荐你可能喜欢的东西。但是这些关于你喜欢和不喜欢的数据是从哪里来的呢?

推荐系统的多彩世界

推荐引擎的数据流

收集用户偏好数据的方法有两种:

  • 显式数据

要求用户以1到5星的评分标准来评价一项内容,或者用“喜欢”或“不喜欢”来评价他们看到的内容,这是一个显式数据收集的例子。在这些情况下,会显式地询问用户是否喜欢某个特定的项目,然后使用这些数据构建该用户感兴趣的概要文件。

然而,有一个缺点,因为不是每个用户都留下反馈或评级,即使他们留下评级,对于不同的人可能有不同的含义。例如,3⭐️评级可能对一个人来说意味着好,但对另外一个人来说就是一般般。

  • 隐式数据Implicit Data

隐式数据来自用户与站点的交互,并将其解释为感兴趣或不感兴趣的指示。例如,从亚马逊购买产品或观看完整的youtube视频片段被认为是一种积极的兴趣。隐式交互可以提供更多的数据,对于购买数据,它甚至可能是更好的数据。

推荐系统的基础模型

在当今的行业中,有许多类型的推荐系统。然而,重要是决定哪种类型适合我们的需要以及我们可以使用哪种数据。选择主要取决于:

  • 我们想要确定的,
  • 在我们的数据中指定了什么类型的关系。

推荐系统所采用的一些共同方法包括:

推荐系统的多彩世界

推荐系统的一些方法

让我们对每一个都做一个简单的概述

基于内容的过滤

基于内容的过滤包括基于物品本身的属性推荐物品。基于内容的过滤器提出的建议使用个人的历史信息来指导所显示的选择。这样的推荐系统会寻找一个人在过去购买或喜欢的物品或产品之间的相似之处,为将来推荐一些选择。

推荐系统的多彩世界

基于内容的过滤

例如,如果用户喜欢“文学”类别的书籍,那么向用户推荐相同类别的书籍是有意义的。此外,推荐同一年出版的同一作者的书也是一个好主意。这就是基于内容的过滤的工作原理。

基于内容的方法的优点是,我们实际上不需要很多交互来构建模型,因为我们只需要关于产品的信息。然而,缺点是,模型没有从交互中学习,因此随着时间的推移,基于内容的系统的性能没有太大的改进。

协同过滤

协同过滤利用许多用户/客户提供的评级的综合能力来提供推荐。这意味着根据他人的协同行为推荐产品。

推荐系统的多彩世界

协同过滤有两种方法:

1. 基于记忆的方法 这也被称为基于邻域的协同过滤算法,其中用户项组合的评级是根据它们的邻域来预测的。这些领域可进一步以下列两种方式之一加以界定:

  • 基于用户的协同过滤:

找到像你这样的人,向你推荐他们喜欢的东西。

  • 基于物品的协同过滤:

推荐那些买了你喜欢的东西的人买的其他东西。

2. 基于模型的方法 使用机器学习方法,将问题作为一个普通的机器学习问题来处理,从而提取评级数据的预测。PCA, SVD,矩阵分解,聚类,还可以使用神经网络等。

混合以及基于集成的过滤

推荐系统的多彩世界

混合过滤

基于内容和协同的方法都有各自的优缺点,通过将许多算法结合在一起,我们称之为混合方法,最终可以得到一个更好的系统。混合系统利用物品数据和交互数据提供建议。

使用混合方法的一个很好的例子是Netflix。在Netflix,推荐不仅基于人们的观看和搜索习惯(协作系统),还推荐具有相似特征的电影(基于内容)。

推荐系统的多彩世界

混合系统如何工作

评估推荐系统:关于准确性的炒作

用户并不真正关心准确性

没有一种直接的方法来衡量推荐系统的好坏。这一领域的许多研究都倾向于预测用户对所有他们尚未评级的事物的评级,无论是好是坏。但这与现实世界中推荐系统所需要做的非常不同。度量准确性并不是我们真正想要推荐系统做的事情。那么,为什么在推荐系统领域中对RMSE和准确性给予了如此大的重视呢?

嗯,很多都可以追溯到2006年,当时Netflix宣布了著名的100万美元奖金挑战赛。比赛开始时,他们的RMSE是0.9525,终点线是0.8572或更低。由于奖项的焦点是RMSE,人们只关注它,这种影响一直持续到今天。

推荐系统的多彩世界

有趣的是,经过三年的竞争,大多数算法都没有集成到Netflix中。

你可能想知道,在赢得了一百万美元之后的两年发生了什么事,…我们离线评估了一些新方法,但是我们度量到的准确率的提升并没有没有理由把他们放到到生产环境中。我们的商业目标是最大限度地提高会员满意度和月订阅率……现在很明显,Netflix的获奖目标,准确预测电影的评级,只是一个有效的推荐系统的许多组成部分之一,它优化了我们的会员的体验。

结论

在本文中,我们概述了推荐系统,以及它们如何通过为每个客户创建个性化的购物体验来提供有效的目标营销形式。但是,我们没有深入探讨各种推荐的方法。这是因为每种方法都是相当广泛的,都应该有自己的一篇文章。在下一篇文章中,我将详细讨论推荐方法的工作原理及其优缺点。

英文原文:https://towardsdatascience.com/the-remarkable-world-of-recommender-systems-bff4b9cbe6a7

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
AI公园的头像AI公园专栏
上一篇 2019-09-08 16:08
下一篇 2019-09-09 11:11

相关文章

关注我们
关注我们
分享本页
返回顶部