谷歌创始人“从医”：用大数据分析对抗老年痴呆

摘要：布林希望绕开盛行了几个世纪的科学认识论，转向一种更具谷歌风格的科学。

原标题《谷歌创始人对抗老年痴呆动用计算机算法》

谷歌联合创始人谢尔盖·布林(Sergey Brin)经常练习跳水。“跳水这项运动短暂而剧烈，”他说。“可以马上提高心跳速率。”

但跳水对他来说还有另外一个好处。从家族遗传学的角度来看，布林患上帕金森症的风险很高，而每跳一次水，这种风险就会减少一点点。在布林身体的每个细胞内，12号染色体的LRRK2基因都存在一种基因突变，它与帕金森症的发病率关系密切。

不是每个有这种基因突变的人都会患上帕金森症，但它确实增加了患病机会。普通美国人患这种病的风险约为1%，但有这种基因突变的人患病率达到30%-75%。从布林本人的DNA来看，他患病的可能性是50%。所以他采取了一些保养措施，运动、喝咖啡、喝绿茶……用环境因素来抵消DNA的影响。

他说，“饮食、运动这些方法，可以让我的患病风险下降一半，到25%左右。”他觉得，神经科学的稳步发展，会把这种风险再降低一半，把可能性降至13%左右。虽然这些是推测，不过他解释得有理有据，让人信服。

当然布林绝不是普通人，他拥有百亿美元身家，这为他提供了额外的好处。自从知道自己携带LRRK2基因突变之后，布林捐献了至少 5000万美元给帕金森症研究活动，他认为这笔钱可以“真正改变局面”。随着研究活动的增多，布林再次调整了自己的整体患病风险，“风险下降到10%以下。”这仍然普通美国人的10倍水平，但已经比他本身50%的患病风险下降了很多。

谷歌风格的科学

这听起来如此务实，如此显而易见，差点让大家忽视了一个惊人的事实：很多慈善家都资助了某些疾病的研究，他们自己也被诊断出患有这些疾病。但是，布林可能是第一个基于基因测试而捐献科研经费，希望自己避免患上某种疾病的人。

布林的做法值得注意还有另一个原因。这不仅是一种公益科研创投，而且布林是在寻求一种完全不同的科学。大多数帕金森症研究工作，就像一般医学研究一样，依靠的也是传统的科学方法：假设、分析、同行评审、发表论文。但布林提出了一种不同的方法，使用计算能力和海量数据集来推动研究。这种方法来源于他对算法的理解，带有谷歌那种对计算能力的信心，目的是加快科研步伐，增进科研潜力。 “我已经习惯了互联网界，在我看来，医学界的研究步伐简直和冰川移动一样缓慢，”布林说。“我们可以查找很多东西，收集大量信息。如果能发现一个模式，就有可能找到出路。”

换句话说，布林希望另辟蹊径，绕开盛行了几个世纪的科学认识论，转向一种更具谷歌风格的科学。他想先收集数据，再假设，然后发现有价值的模式。而且他也拥有足够的资金和算法武器来做到这一点。

家族遗传

布林对数字的信心，对“知识就是力量”的信心，来源于家族传承，他的父母都是俄罗斯裔科学家。布林的母亲在1996年出现一些症状时，联想到自己姑妈患上帕金森症的经过。但当时科学界认为帕金森氏是不会遗传的，所以布林并不理解母亲的担心。 “我认为她想太多了，太不理性。”他说。然而经过进一步的测试之后，布林的母亲在1999年被诊断出患有帕金森症。

LRRK2基因突变和帕金森症的关系是在2004年发现的。2006年，布林的妻子安妮·沃西基(Anne Wojcicki)创办了个人基因公司23andMe(谷歌是投资者之一)。布林作为alpha测试者，很早就看到了自己的基因组结果。不久23andMe公司就发现，布林和他母亲都有LRRK2基因突变。

布林没有惊慌。他花了数个月来考虑此事，请教专家。但很快，他就意识将这件事保密是不切实际的。布林说，“我还不如公开此事，这个信息似乎是值得分享的，甚至可能是有趣的。”所以在2008年9月的一天，布林开了博客。第一篇文章直接就叫《LRRK2》。

有毒的知识

从某种意义上说，我们一直在使用遗传学来预知自己患上疾病风险。当我们谈论家族病史时，我们主要谈论的是DNA，是对于我们自身的健康而言，父母的健康状况提供了什么线索。遗传扫描只不过是一种更现代的方式，来把我们的家族历史和我们的未来可能性联系到一起。

但是DNA检测如此精确，可能会让人觉得化学物质决定了命运，觉得它包含着黑暗的、冷酷无情的秘密。这就是为什么基因信息有时被说成是“有毒的知识”的原因。用斯坦福大学生物伦理学家汉克·格里利(Hank Greely)的话来说，让人们可以直接访问自己的遗传信息，是彻头彻尾的“鲁莽之举”。

在科学发展的早期，这倒也有几分真实。但出人意料的是，基因信息“有毒”的观念一直延续至今，可能是因为它假设人们缺乏自我了解的秉性。但研究表明这种假设是没有根据的。

一项关于阿尔茨海默氏症的研究称，在告知人们患病风险较高的坏消息时，“预期人们会做出灾难性的反应。抑郁症、自杀、辞掉工作，抛弃家庭。研究者想到了最坏的状况。”

但是事实与之相反。那些被告知阿尔茨海默氏症患病风险较高的人，似乎能用正能量来处理这件事，在后来的生活中，他们往往选择了更加健康的生活方式。 “人们会去应对问题，似乎并没有产生任何明显的抑郁症状。”

换句话说，对于看起来非常糟糕的消息，我们大多数人都会像谢尔盖·布林那样去应对：研究一下我们究竟有哪些选择，寻求建议，然后继续生活。 “每个人都面对着自己的挑战;每个人都有自己的问题要处理，“布林说。“这就是我的挑战。它不过是我老了之后需要面对的诸多问题之一。最重要的是，我能对此做些什么”

随着布林对帕金森症的日益了解，在与沃西基探讨研究模型时，他意识到有一个更大胆的实验正在酝酿之中。

阿司匹林的教训

1899年，拜耳的科学家推出了阿司匹林。这种药对感冒、腰痛和牙痛效果很好，但是它的作用机制当时并不清楚。

直到20世纪60、70年代，科学家才开始逐步弄清阿司匹林的作用机制：阿司匹林可以抑制人体内一种名为前列腺素的化学物质，而前列腺素会引起炎症和疼痛。明白了这一点，后来的一个发现就非常容易理解了：1988年时，人们发现，隔天服用阿司匹林能够明显降低心肌梗塞。因为阿司匹林抑制了前列腺素，抑制了血栓的形成，因此也就降低了心肌梗塞或中风的风险。

阿司匹林的“二次发现”，被认为是当代医学研究的成就之一。但布林认为，我们应该从这件事中总结出另一个教训——在阿司匹林最初推出之后，到人们发现它和心脏疾病有关系之前的那数十年里，“有数以百万计的人服用阿司匹林，获得了额外的健康益处。”但这些益处与阿司匹林之间的关系被忽视了，因为没有人去关注这些病人。“所有的数据都丢失了，” 布林指出。

数据分析——“购物篮分析”的力量

以布林的思维方式来看，我们每个人的生活都可以为科学洞见做出贡献。我们平常过日子，做出各种选择、吃东西、服药、做这样那样的事情——产生了所谓的“数据废气”(data exhaust)。在一个世纪前，你当然不可能真正利用这种信息的价值，特别是没有一个具体的假设来指导研究人员在寻找什么东西的时候。但是今天，利用现代计算能力，研究者可以对这些数据进行跟踪和分析。 “我们拥有的任何经历，或服用的任何药物，都是个人的信息片段，”布林说。 “单独来看它们没有什么价值。但综合起来，它们可以变得非常有用。”

在计算机科学中，挖掘这样的大型数据集来找到有用的关联，这个过程被称为购物篮分析(Market Basket Analysis)，常常被用于零售购买模式的推导中。比如亚马逊就用它来告诉你，“购买X商品的用户也购买了Y商品”。

布林在斯坦福大学读书时，就对这个领域进行了研究。他在1997年的一篇论文中说，只要有了正确的算法，你可以从各种非常规的“购物篮”中找到有意义的关联。“不夸张地说，我们的患病经历就可能是其中之一。”

布林对“噪音数据”有很大的容忍力，这一点特别能说明问题，因为医学界倾向于认为“噪音数据”不是好事。生物医学研究人员往往把实验限制在可以严格测量的问题上。但强调纯度就意味着可供研究的病人数量比较少，也就会导致数据集的规模比较小，从而限制了研究的“power”，即发现结果为真的概率。

但是，越来越多的科学家，特别是那些有计算和信息理论背景的科学家觉得，这种研究模型是可以反转的。为什么不从海量的数据出发，来寻找模式和关联呢

科学的第四范式

已故的微软研究人员、计算机科学家吉姆·格雷(Jim Gray)把这称为“科学的第四范式”，从假设向模式演化是一个必然进程。格雷预测，在各个学科领域，科学家会被数据洪水包围，除非他们重新界定科学过程的概念，并使用大量的计算工具来处理数据。“科学世界已经改变了，”格雷在2007年的演讲中说。从现在开始，排在首位的将会是数据。

格雷的老东家比尔·盖茨(Bill Gates)也在“第四范式”上压下过一笔小赌注：波特兰一家公司运用大型计算来快速模拟传统药物研究的试错法，盖茨向其投资了 1000万美元。

谢尔盖·布林当然不是普通人。有多少人拥有足够的资源来扭转科学的曲线又有多少人的配偶创办过基因学公司布林不仅拥有这样的条件，而且他本人也有一种以数据为驱动力的思维方式，所以在谈到基因知识的时候，他可能比我们大多数人都更加淡定。很少有人会把自己的困境当作契机，促进一种新科学的发展，这是布林的与众不同之处。

但是我们之中的一些人，可能有一天也会面对布林那样的挑战，发现自己属于某种无药可治的疾病的高风险人群。然后我们会更多地进行锻炼，开始吃不同的食物，做出各种努力，同时等待科学研究的发展。从这个角度来说，布林的故事不仅仅是一个亿万富翁的故事，也是每个人的故事。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。