腾讯Hermes实时检索大数据平台介绍

一、序言

随着TDW的发展，公司在大数据离线分析方面已经具备了行业领先的能力。但是，很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率，这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求，可以采用精心设计的传统关系型数据库组成并行处理集群，或者采用一些内存计算平台，或者采用HDD的架构，但是这些都无疑需要比较高的软硬件成本。海量数据的今天，堆机器不是每个业务都愿意去做的。

实时检索分析平台(Hermes)，旨在为公司大数据分析业务提供一套实时的、多维的、交互式的查询、统计、分析系统，为公司各个产品在大数据的统计分析方面提供完整的解决方案，让万级维度、千亿级数据下的秒级统计分析变为现实。

本文将粗略介绍系统的应用场景、设计架构以及相关业务接入情况。

二、Hermes实时检索分析场景

营销分析

作为营销人员，首先你需要确认营销目标群体，并且在什么时间以什么形式，开展什么营销活动效果最好？你首先需要找到目标群体号码包，通过指定条件（如性别、年龄、兴趣爱好，曾经有过类似行为）提取号码包；通过大数据分析，得知在某个时间段参与人数较多，哪种类型的活动效果更受欢迎，目标用户群体有哪些共同特征。掌握这些，你的营销活动效果更加好；

系统运营分析

一个产品的后台有着成千上万个接口，各个接口的性能指标是开发人员、运维人员特别关注的，每个接口可能都有不同的版本号，要判断系统是否稳定不是某个时间点的数据能体现出来的，需要对比分析历史数据才能发现潜在的问题。也许问题只出现在某个接口的某个版本中，并且只有特定版本的接口发送到特定接口才会重现这种问题，开发人员除了大量的日志外，没有很直观的途径能指导开发人员有针对性的定位问题。

如果对这些性能数据进行实时的多维度的数据分析，只需要根据问题的表象分析对应的版本号、对应的接口就能查看到对应的性能数据指标，从而快速缩小问题发生范围，为问题定位提供高效的解决途径。

此外不同版本性能的周期性对比、新版本上线性能跟踪等都是系统运营分析所不可或缺的。

趋势分析

当面对每天几百几千万的数据，mysql等传统的数据库能帮你搞定，但是当你要分析周期性数据, 比如最近三十天，这个数据量，也许你没疯mysql就已经”疯”了。

当要分析的数据按月按年计算呢？肯定很多人考虑hadoop，没错，它是能帮你解决这么大的数据量的分析工作，但是hadoop不能让你即查即所见？一个分析人员效率高低，很多时候取决于工具的时效性，这直接影响着分析人员、运营人员的分析思维连贯性。

探索性分析

很多分析人员分析的目的是验证性的、是探索性的，在不断的调整验证自己的猜想最终发掘有效信息从而为产品发展找到决策性数据依据。

假设你有10亿的数据量，字段数达到上百个，分析人员任何一个YY分析需求都有可能是这上百个字段其中的组合，假设我们从中取5个字段做组合分析，100个字段中取五个字段的组合数能达到75287520，每次查询就算耗时500毫秒，预处理也要430多天。可见，任意组合的查询分析、即查即所见的多维组合分析是探索性分析必需具备的”硬件”条件。

全文检索

很多场景需要根据关键字对数据进行实时检索服务，目前我们支持数据的实时接入，也支持数据的批量导入。除此高效的毫秒级检索分析服务外，我们还支持用户对结果集的导出。

三、Hermes设计概要

架构描述