日前,TalkingData首席数据科学家 张夏天在参加CSDN年度技术盛宴“SDCC 2015中国软件开发者嘉年华”时接受了CSDN软件研发频道的专访。
张夏天,曾在IBM中国研究院,腾讯数据平台部,华为诺亚方舟实验室任职。对大数据环境下的机器学习、数据挖掘有深入的研究和实践经验。在TalkingData负责数据挖掘和机器学习工作,为TalkingData各个产品线和服务线提供支持。
CSDN:请简单介绍下您和目前的工作,以及说说您自己曾经的计算机经历
张夏天:目前我是在TalkingData的数据科学部主要负责数据挖掘,机器学习,业务建模等方面的工作。目前我主要的工作有三块,一是大规模机器学习能力的建设,二是基础数据的深度挖掘和整理,三是支持不同业务的数据挖掘和业务建模的工作。前两个工作都是为了支持第三个工作的高效进行。我们最大的责任就是在不同的行业,把数据的价值发挥出来。
我是初中开始接触计算机的,当时学校有个微机房有几十台286电脑,记得也就是学了些打字和最简单的Basic语言。后来在高中,参加了学校的计算机奥赛的小组,参加时间不长,学了点Pascal。大学学的数学,计算机学得比较少,不过在系里还算学得比较好的。研究生转了计算机专业,做了很多项目,毕业进来IBM中国研究院,主要从事推荐系统方面的研究工作。在IBM呆了4-5年,感觉做推荐系统、数据挖掘得有数据,后来就去了腾讯,从此就踏入了互联网行业。
CSDN:您对算法是怎样的理解以及相比于产品决策团队、数据工程师,算法工程师在一个公司里如何安排好自己的位置
张夏天:算法是机器学习的核心,所有的研究都是为了最后设计出更好的算法。机器学习的进步也是被一种又一种新的算法的出现而推着前进。当然,任何一种算法都有自己的局限性,在实际工作中我们不能指望算法帮我们解决所有问题,不要过度的崇拜算法。实践中,对问题的理解,对数据的理解,对数据的清洗,处理和加工带来的影响可能比算法更大。我们团队还比较小,没有专职的算法工程师,目前公司的各种数据应用尝试又比较多,所以在我的团队我是要求大家向数据科学家的方向发展,而不仅仅是实现算法、使用算法。
数据科学家是个很炫酷的职位。我个人理解数据科学家需要具备理解业务的能力,洞察数据的敏锐性,懂机器学习理论和算法,又具有一定的编程开发能力。是能够独立运用各种技术解决数据驱动的业务问题的专家。
CSDN:目前TalkingData的算法团队情况是怎样的又是如何支持公司各个产品线和服务线的
张夏天:目前我们的团队还在发展中,目前一共是5个人,除了我以外都还比较年轻,现在也在努力引进一些资深的人才。因为我们是数据公司,在很多产品和服务中就少不了数据挖掘能力的支持。对工具类产品,我们团队主要提供算法库的支持,同时也会跟产品经理一起梳理算法在产品中如何应用。而对于数据类的产品,我们会参与产品核心算法的研究。我们目前有很多的数据应用服务的项目和探索,在这块我们团队会根据需求,在项目不同的阶段参与进来提供支持。
CSDN:能够简单介绍下TalkingData大规模机器学习的应用情况
张夏天:我们目前的大规模机器学习是基于Spark平台的,目前主要用于Lookalike(相似人群)挖掘。我们累积的数设备数已经超过23亿,在这么大的池子中做Lookalike是一个规模很大的问题。为了支持这个应用,目前可以做到10亿级别的样本,数百万的维度下将LR算法10分钟训练完。不过为了支持这个能力的产品化,我们还在想办法能够将算法效率进一步提高,个人的目标是10秒以内。
CSDN:在这个信息完全碎片化的时代里,大数据的出现让整个广告行业日新月异。广告主从漫无目的量化式投放成功过渡到精准到个人的精细化投放。这种小成本大收益的模式得益于大数据背后精准的数据支撑,而算法在这类的实际应用中有着怎样或多大的作用
张夏天:算法当然是起到了非常关键的作用,精准投放比盲投提高一倍的ROI不是什么难事。算法的精度、效率直接决定了广告的效果和收益。
CSDN:精度非常好理解,效率也很重要么
张夏天:因为广告市场的变化是很快的,每时每刻都有新的广告进来,老的广告退出,用户兴趣也在发生变化。一个再精准的算法模型,如果训练时间太长,训练出来的模型就已经落后于实际情况了。所以趋势是模型的更新速度越来越快,现在已经向on line learning的方式在发展了。精准投放是一个系统工程,算法仅仅只是其中一环,更基础的还是数据。算法是屠龙刀,但是还得有龙屠,我们公司最主要的还是在养龙。
CSDN:如果想从事算法方面的工作,能够推荐一些有效的学习方法以及结合多年工作,可否推荐一些工具或学习库。
张夏天:我对我们团队的要求是不要第一步就去看算法,先把概率与统计好好复习一遍,再来看机器学习方面的书。我认为机器学习实际是统计学的衍生,主要是为了解决多维问题。如果不理解本质而只追求方法,就很难有很大的提高。以前做实验我用weka比较多,后来都是处理大规模的问题,基本都只能靠自己写,这方面也难给出什么推荐。
CSDN:可否推荐一份机器学习和数据挖掘的书单
张夏天:我看过的觉得比较好的有《统计学习理论》、《统计学习方法》、《数据挖掘:概念与技术》、《Machine Learning: A Probabilistic Perspective》、《模式分类》。
CSDN:感谢您的分享。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。