尽管大数据已经离我们如此之近,肯定还会有人问,“大数据”到底是什么意思?套用Gartner的定义,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
也许这样说,你还是不明白大数据到底是什么,它对我们到底有什么用。下面我用个最贴近我们生活的例子来告诉你什么是大数据,以及大数据到底能为我们做些什么。
中国是一个人口大国,每天因为疾病进出医院的不计其数。随着医院门诊量和住院人数的不断增多,医疗数据量也变得无比庞大。大家都清楚医疗数据被安全地存储有多关键。谁也不希望自己的诊疗病例转眼就不见,明天要做手术的患者,今天忽然所有病例都不见了,可见是多么恐怖的一件事情。
同时因为患者的数据是不能重复再现的。不仅是数据量得到有效保存,而且还要确保数据不能丢失。这是大数据的根所在——有数据,还得是有质量、真实的数据。这就解释了大数据在医疗行业的由来。
最直观的大数据案例
近些年,一些大规模的传播疾病一直没有间断,从非典到H7N9,病毒性流感一波又一波袭扰人类,流感病毒不断变异并传播开来,令药物和疫苗要么准备不及,要么无法预防。但是如果能提早发现流感的发病趋势,不仅能为抗病毒药物的准备争取宝贵的时间,而且还有助于疫苗研发机构能尽早采取措施。
作为全球最大的搜索引擎,每时每刻都有上百万用户在使用谷歌提供的搜索服务,其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。
可以想见,流感流行季,搜索流感症状的人会飙升,而在流感高发地带,这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感,但把这些搜索结果汇总到一起时,或许可以从中建立起一个准确可靠的模型,实时监控时下的流感疫情,并对未来疫情状况进行估测。
谷歌的工程师们想到了从大数据的筛选过渡到流感的防治问题上。但是他们首先面临的任务是选择流感相关的关键词。工程师将关键词的选择权交给机器。他们挑出谷歌搜索量最大 5000 万个关键词,分别代入到事先建好的一个模型中,而后将这一模型产生的曲线与美国疾病预防与控制中心(以下简称美国 CDC)的流感流行曲线进行拟合,进而筛选到拟合度最高 100 个关键词。
再从这 100 个预测性最好的关键词中,优选出与流感有关的部分,并将其综合起来完成预测模型的建立。最终有 45 个关键词筛出。
实践是检验真理的唯一标准,预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中,谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较,发现相关系数达 0.90。对于这一模型,更有用的是“未来”验证的结果。在回溯结果的鼓励之下,谷歌工程师从 2008 年初开始,将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋,相关性同样达到了 0.90。最终,工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。
大数据衍生出“流感指数”
很快,谷歌根据这一结果推出了名为“流感指数(Google Flu Trends)”的产品,据称能够提前两周提供精确度不低于疾控中心的结果。目前这一指数已推广到全球 29 个国家,并由检测流感拓展到另一种感染性疾病登革热。谷歌工程师对这一产品如此自豪,以至于在产品推介视频中,CDC 的结果完全沦为陪衬,但事实果真如此么?
由于“流感指数”的高低在很大程度上取决于用户的搜索行为,有观察家认为,如果一些事件会影响到用户的搜索,那么指数就有可能出现假阳性或假阴性。果不其然,在谷歌流感指数运行期间,人们逐渐观察到原有模型的缺陷。
时至 2013 年,流感再一次引起了世人的广泛关注。在中国,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人传人的迹象。而在美国,流感流行状况也十分严峻。纽约州在 2013 年 1 月还特地发布“公共健康紧急状态”的通告,以警示民众。这些消息获得大众媒体的广泛报道。然而,谷歌流感指数的表现再次让人大跌眼镜:指数估值出现了假阳性,即远高于 CDC 的统计数量。尽管谷歌方面对此并未置评,但大部分关注这一指数的研究者认为,流感疫情获得媒体连篇累牍的报道,影响了谷歌用户的搜索行为,导致指数估值出现偏差。
在谷歌流感指数启发之下,很多研究者试图利用其他渠道(比如社交网站)的数据来预测流感。纽约罗切斯特大学的一个数据挖掘团队就曾利用 Twitter 的数据进行了尝试。利用团队开发的文本分析工具,研究者在一个月内收集了 60 余万人的 440 万条 Twitter 信息,挖掘其中的身体状态信息。最终的分析结果表明,研究人员可以提前 8 天预报流感对个体的侵袭状况,而且准确率高达 90%。
不过研究者也承认,这一算法并非完美,比如 Twitter 的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童。
大数据的医疗应用
临床诊断
通过全面分析病人特征数据和疗效数据,然后比较多种干预措施的有效性,可以找到针对特定病人的最佳治疗途径。
其次体现在临床决策系统。通过将医生处方和医疗专家库医学指导比较,系统可提醒医生避免出错,如药品不良反应、过度使用抗生素等,帮助医生降低医疗风险。
最后是可以让临床医疗数据更加透明。邬贺铨表示,美国疾控中心公布了医疗数据,帮助病人作出更明智的决定,从而选择性价比更高的治疗方案。通过告诉病人多种不同的医疗方案,病人可以自己选择治疗方案。
远程监护
首先,通过收集数据,医生可以更好地判断病人病情。例如充血性心脏衰竭的治疗检查费用非常高。但是通过大数据分析发现,凡是充血性心脏衰竭的病人,他的颈静脉会扩张。所以根据颈静脉扩张的检查,就能判断他是不是充血性心脏衰竭。而颈静脉的检查,根本就不要成本,摸一下就够了。而这也是通过大量数据的搜集而总结出来的。
其次,通过对数据的收集和分析,可实现计算机远程监护,对慢性病进行管理。比如,充血性心脏的标志之一是由于保水而增加体重,因此通过远程监控体重可发现相关疾病,提醒医生及时采取治疗措施,防止急性状况发生。
计算机远程监护还可以减少病人住院时间、减少急诊量,提高家庭护理比例和门诊医生预约量。
医疗研究
首先体现在预测建模。通过收集临床实验前期和结果的数据,可以评价新药的安全性、有效性以及潜在的副作用,提高研发效率。
其次是临床实验设计的统计工具和算法。通过挖掘病人数据,可以评估和招募患者是否符合试验条件,并进一步找出最合适的临床实验基地,从而加快临床试验进程。
其实善用起来,我们乐观的想,大数据的使用可以改善公众健康监控。公共卫生部门可以通过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。这将带来很多好处,包括医疗索赔支出减少、传染病感染率降低,卫生部门可以更快地检测出新的传染病和疫情。真正的用在实处,相信会给我们今后的医疗环境带来非常大的改善。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。