Airbnb教你使用数据理解用户旅行体验

摘要：Airbnb是如何使用数据理解用户旅行体验的？

Airbnb的数据科学家收集数据并使用这些数据来优化产品，通过数据找出问题所在，并且通过数据协助做出业务决策。对于大多数用户，“Airbnb体验”最典型的瞬间就发生在现实世界——当他们根据自己计划去旅行时，当酒店主人跟他们打招呼时，当他们住在酒店时，当他们探索目的地时。这些瞬间决定了Airbnb体验的成败，不管我们的网站做得多大。这篇文章的目的是展示我们如何利用数据去理解用户旅行体验的质量，特别是如何增加“净推荐值NPS”的价值。
目前，我们能收集到与线下体验的最好的相关信息是在旅客结束行程后通过Airbnb.com网站上的用户反馈进行相关信息反馈。这个反馈是可选的，要求对总体体验使用文本反馈并进行1-5的评价分数打分，除了总体体验还有其他子分类项目，例如准确性(Accuracy)、整洁度(Cleanliness)、入住(Checkin)、沟通(Communication)、地点(Location)和价值(Value)。从2013年年底开始，我们增加了一个问题到我们的反馈表中，这就是NPS问题。

NPS或者称“净推荐值”是在2003年由Fred Reicheld引入到客户忠诚度并得到广泛的使用，相关可以参考
[https://hbr.org/2003/12/the-one-number-you-need-to-grow/ar/1] 。我们问用户“你有多大可能向你的朋友推荐Airbnb？”，这就是所谓的“可能性推荐”或LTR问题。那些对此可能性问题回答9或10的用户被标记为“推荐者”或忠诚的热心者，那些只打了0-6分的用户则被标记为“批评者”或不满意的用户，那些打了7或8分的用户则被认为是“被动的”，他们喜欢公司的产品或服务，但不会向朋友推荐。。我们公司的NPS（净推荐值）是通过“推荐者”百分比减去“批评者”百分比去计算的，结果值是一个-100到+100的一个数字，-100是最糟糕的情况，即所有的打分的都是批评者，+100则是最好的情况，即所有的打分者都是推荐者。
通过用户一个简单的住宿满意度去衡量一个用户的忠诚度，NPS调查的目标是成为一个更有效率的方法论去确定顾客再次回来预订的可能性、向朋友传播推荐的可能性，并防止市场压力使用户流失到竞争对手中。在这篇博客中，我们期待我们的数据去找出事实是否真的如此。我们发现较高的NPS确实普遍对应着更多的推荐人和重新预订。

方法论
我们将参考单独个体对于NPS问题作答作为他们LTR（推荐可能性）分数的打分，NPS的分数范围是-100到+100，LTR是一个范围从0到10的整数。在这项研究中，我们看看所有在2014年1月15日和2014年4月1日之间结束他们旅程的客户，如果一个顾客在此段时间进行了超过一次的旅程，仅仅以第一次旅程作为参考，然后我们尝试预测客户是否会在Airbnb进行下一次的预定，而这下一次的时间范围是从顾客结束了他的此次旅程后到未来一年的时间内。
有一点需要注意的是，再一次旅程结束后的反馈是可选择而非必须的，而且反馈表也是由不同的部分构成的。有一小部分用户并不会填写反馈表或者选择性地填写了反馈表并不回答NPS问题，而NPS通常只能根据反馈者去做计算。在这个分析中，我们将没有填写反馈表的用户或者填了反馈表但没有填NPS问题的用户等因素考虑进去。
为了评估LTR的预测能力，我们控制与重新预定相关的其他参数，这些参数包括：
1、关于总体反馈得分和反馈表中子类项的选项，所有反馈项目都分为1-5个等级。
2、顾客获取渠道（例如自然加入的顾客或同个营销活动引入的顾客）。
3、旅程目的地（例如美国、欧洲、亚洲等）。
4、顾客来源地。
5、之前有在Airbnb预定的顾客。
6、旅程距离远近程度。
7、顾客数量。
8、每晚价格。
9、结账的月份（考虑季节性）。
10、房间类型（整个家庭、包房、公用客房等）。
11、顾客主人拥有其他物品的数量。
我们承认我们的方法可能会有以下缺陷：
1、可能还存在其他形式的与忠诚度相关的因素没有被获取到，我们是根据公司推荐计划提出来的提议参考的，用户忠诚度也能从口碑推荐中体现出来，但此研究并没有获取到此项。
2、可能有一些顾客重新预定的时间跨度比较长，我们比较关注一年时间跨度，但有些顾客可能不经常去旅行，那他们可能在两到三年才会重新预定。
3、一个顾客的LTR可能不能够作为NPS结果的直接替代品，但即使基于顾客的LTR可能无法准确预测顾客重新预定的可能性，但我们使用NPS去预测一个完整的群体重新预定的可能性，这将会使我们更好地经营。
尽管存在这些不足，我们希望这项研究可以提供一种量化的方式去思考NPS的价值，它能让我们更好地理解线下的体验。
数据的统计描述
我们的数据覆盖了超过600000的顾客，我们的数据显示，提交了反馈表的顾客中，三分之二的顾客是NPS的推荐者，超过一半顾客给LTR打了10分，我们数据集里面的600000用户中只有百分之二是批评者。

旅程反馈表的总体评价分数旨在评估此次行程的质量，而NPS问题则有助于评估顾客的忠诚度。我们通过查看LTR分数的分布式与旅程反馈表总体分数之间的关系，进而来看看这两个变量如何互相关联。虽然LTR与反馈表总体得分是相关的，但它们还是提供了一定差异信息。例如，经历了一个令人失望的体验后的那些一小部分顾客中，它们反馈表只给了一星评价，但这里面26%的顾客其实是Airbnb的推荐者，这表明他们仍然对公司持积极态度。

记住，我们的旅客中NPS批评者只有非常小的一部分，而LTR与反馈总体分数有很大的关联性，我们研究如何将LTR与重新预定率和推荐率关联起来。
当一个顾客在结束完旅程的12个月内通过我们的推荐系统向至少一个朋友作推荐时，我们认为这些顾客是推荐者。我们看到填写了NPS问题的那些顾客，更高的LTR对应着更高的重新预订率和更高的推荐率。

如果不考虑其他变量，比起批评者（0-6分）的顾客，那些给LTR打了10分的顾客高出13%的可能会重新预订，且高出4%的可能会在未来12个月推荐给好友。有趣的是，我们注意到反馈者中重新预订率几乎与LTR呈线性关系（我们没有足够的数据去区分0-6分的反馈者）。这些结果表明，对于Airbnb，反馈打9分和10分的人作为推荐者。我们还注意到，没有留下反馈评论的顾客行为与批评者一样，事实上，比起LTR0-6分的顾客，他们稍微更加不太可能重新预定和推荐给好友。然而，提交了反馈表单但没有回答NPS问题的顾客（被标记为“no_nps”）的行为与推荐者的行为相似，这些结果表明，当我们做NPS测定时，保持反馈率也同样重要。
接下来，我们看看其他因素是如何影响重新预定率的。例如，我们通过10周数据发现重新预订率是季节性的，这可能是因为淡季旅客往往是忠诚的顾客和经常旅行的人。

我们看到短途旅行的顾客更有可能重新预定，这可能是因为有些顾客使用Airbnb进行了一个长期住宿，而他们不太可能会在明年又进行另外一个长期住宿。

我们还看到，重新预订率与每晚价格列表有抛物线关系，住在非常昂贵的酒店的顾客不太可能会重新预定，但住在非常便宜的房源的客人也不太可能会重新预定。

哪些反馈表项目最能预测重新预定？
除了整体星级评分和LTR得分外，顾客可以选择性地回答他们反馈表中其他子项目，所有项目都分为1-5星级：
1、准确性
2、清洁度
3、入住
4、沟通
5、地点
6、价值
在此部分中，我们将研究根据反馈率去预测顾客是否会在此次旅程结束后的未来12个月内进行另外一个旅程。同样我们还将研究哪个子项目选项最能预计重新预定。
为了做到这些，我们比较了一系列的嵌套逻辑回归模型，我们从一个基础模型开始，而基础模型仅仅包含我们在前面部分提到的一些非反馈表的特征做为变量：

然后，我们往这个基础模型中添加一些列反馈表的项目：

f1 = f0 + communication
f2 = f0 + cleanliness
f3 = f0 + checkin
f4 = f0 + accuracy
f5 = f0 + value
f6 = f0 + location
f7 = f0 + overall_score
f8 = f0 + ltr_score

我们通过AIC准则比较匹配度的方法分别将模型“f1”到“f8”与嵌套模型“f0

”进行对比，看哪个模型的质量比较高，AIC准则在模型拟合度和参数数量之间进行权衡，参数越多可能会抑制模型拟合度。

如果我们仅仅引入一个反馈表项目，LTR和总体得分吻合度排名并列第一，添加任何一个子项目也能提升模型吻合度，但仍然比不上LTR或总体得分两项。
接下来，我们通过引入LTR调整我们的基础模型，不断重复执行这个过程看我们可以再往模型中添加反馈表的哪一项。

通过引入LTR，下一个能提升我们模型的子项目是反馈表的总得分，添加第二个反馈表项目到模型后仅仅稍微提高了模型的拟合度（注意区别两个曲线的标度）。

我们不断重复上面操作，不断将反馈表的的某些项目添加到模型，直到模型统计到不再有显著变化，我们留下了以下一组反馈表项目：
1、LTR
2、总体得分
3、六个子项目中任意其中三项

这些研究结果表明，由于反馈表项目彼此有很强的相关，一旦我们有了LTR和总体得分两项后，我们仅仅只需要六个子项目中的其中三项来优化我们的模型，加入更多的其余子项目将增加更多的自由度，而不能显著改善模型预测的准确性。

最后，我们测试了我们模型预测的准确度：

项目	准确性
仅仅引入LTR	55.997%
仅仅引入旅程信息	63.495%
旅程信息 + LTR	63.58%
旅程信息 + 其他反馈表项目	63.593%
旅程信息 + LTR + 其他反馈表	63.595%

仅仅使用旅客结束行程后的LTR，我们可以预测他们是否会在未来12个月内进行重新预定，准确率达到56%。如果提供旅客的基本信息给我们，例如主人信息和行程信息，我们可以将预测的准确率提升到63.5%。如果添加反馈表项目（不包括LTR），我们可以做到额外0.1%的提升。提供所有这些信息，包括将LTR加入到模型中准确率仅仅只会再提升0.002%。

结论
旅程反馈表（包括LTR）仅微略提高我们预测旅客结账后的12个月内旅客是否还会再次预定的能力，在控制了行程和旅客特征等变量后，反馈表星级评级仅仅提升了我们预测准确性的0.1%。在所有反馈表子项目中，LTR对于预测重新预定最有帮助，但如果我们控制了其他项目变量后，它仅仅提升了0.002%准确性。这是因为LTR和反馈表总体得分是高度相关的。

反馈表的目的不仅仅在于预测重复预定，它们使平台更加让人信任，有利于企业建立自己的声誉，提高企业执行质量。我们发现LTR分数更高的旅客更有可能通过我们的推荐系统向其他人推荐Airbnb，他们更可能通过自己好的口碑推荐给别人，批评者实际上会贬低Airbnb以阻止其他人加入Airbnb平台。这里没有探讨将NPS附加关联到业务行为的可能性。但考虑到批评者数量非常少且只是用LTR进行预测重新预定，我们应该谨慎让旅客的NPS拥有过多的权重。