大数据
-
大数据最终的形态:塑造我们
摘要:从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户「口味」的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。 对于大数据在商业上的用途,这句话说得很清楚。前半句是重点,了解用户的行为习惯和爱好,这就是大数据的核心价值。 1. 元数据(Metadata)的概念 简单说,元数据是对数据本身进行描述的数据,或者说,它不是对象…
-
我们对人工智能的10大误解
很难知道该相信什么。但借助于计算科学家,神经科学家,和人工智能理论家的创举,我们可以逐渐了解关于人工智能更清晰的图景。下面是关于人工智能最常见的误解和虚传。 自从20年前深蓝(Deep Blue)在国际象棋中击败卡斯帕罗夫(Garry Kasparov),该事件就被人们誉为机器智能最权威的证明。谷歌的AlphaGo已经在围棋比赛中以四胜一负(译者注:原文是三…
-
人格量化 —— 个人金融画像探索
摘要:本文主要探讨将行为金融学相关理论应用于个人客户金融画像构建。 一 原始数据 目前业界的个人金融画像主要在金融机构内部数据结合外部数据基础构建。如对原始数据进行特征提取,得到如下客户特征: 图一 (来源[7]) 在实施过程中可以为个人金融画像中每个人打上几千个标签。再结合具体场景如股票购买概率预测模型[7]中特征要求,应用于具体场景模型中。 实践中我们一…
-
31个与大数据有关的非常不错的资源和文章(附全链接)
资源 1.用贝叶斯模型计算我的妻子是否怀孕 2.在基础R中使用插值法和平滑功能 3.数据兵工厂里的武器:R vs Spark【这个链接好像挂了~】 4.最好的大数据、数据科学、数据挖掘和机器学习播客视频大全 5.数据科学的线性模型导论 6.黑客读物:数据统计 7.Apache Spark-执行概要 8.随机vs非随机:如何叙述差异 9.面向时间数据可视化技术…
-
大数据:更多的数据还是更好的算法?
我知道很多人自始至终都认为数据是越多越好,Google甚至直言:更多的数据胜过更好的算法,而过去很多侦探剧中崇尚“信息越多,就越靠近真相”的刑侦金句也似乎佐证这一点。而事实上,我的观点是,数据只是基础,如何建构起有效的算法、模型比数据本身更重要,最起码对目前而言是这样的。持与我相近观点的大有人在,如《The Signal and the Noise》(信号与…
-
互联网人群画像和你所不知道的真相(三)
人群画像的基础在于对个体的准确描述(profiling),如果个体描述不准确,人群画像也会有偏差。对每一个个体的描述,我们使用一种被称为“标签”的东西。
-
互联网人群画像和你所不知道的真相(二)
Mobile端用户和跨终端(跨屏)的唯一身份识别问题,同样是理想和现实并存的故事
-
数据杂谈
摘要:记得几年前,曾经有人预测过未来最流行的三大技术:大数据、高并发、数据挖掘。到现在来看,这三种技术的确也随着这几年互联网的发展变得越发成熟和可靠。掌握这三种技术的人,不管是求职还是创业,都属于香饽饽。 一个很深的印象就是当年研究生毕业的时候,专业是数据挖掘、大数据的学生都比较受各种企业的青睐,不管他是不是真的掌握了这些东西。虽然我对大部分高校的相关专业持…
-
互联网人群画像和你所不知道的真相(一)
作为新时代互联网营销的关键部分,人群画像引起了诸多兴趣,近年颇为风靡。几乎所有的互联网广告供应商都不约而同的强调,他们有足够精确的人群画像数据,确保能够找到广告主真正的受众。但是事情果真如此吗?人群画像是否是一劳永逸的解决方案?本文尝试解答这些问题。
-
从大数据的风水图,来看到底大数据是怎么回事
摘要:本文中的Big Data Landscape图笔者随手分享在LinkedIn上,不晓得引起大量转发和评论,截止本周,得到6700个like,3800次share,400多条comment,笔者也觉得很神奇。这里就跟从事大数据或者投资领域的朋友推荐一下。原文作者是VC First Mark的Mark Turck,提下这一家VC,主要投资于早…
-
MapR CEO对2016大数据的5个预测
MapR Converged Data Platform将Hadoop和Spark的强大功能与全局事件流、实时数据库能力与企业存储集成到了一起,用于开发与运行创新性的数据应用。MapR Platform由业界最快速、最可靠、安全且开放的数据基础设施所驱动,极大降低了TCO,并实现了全局的实时数据应用。comScore的CTO Mike Brown这样评价Ma…
-
大数据下客户金融产品购买概率预测
本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。 模型 基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。 该逻辑回归Logistic Regression模型简单描述如下: 客户购买持仓股票概率是指客户在指定日期购买持有指定股票的概率。…
-
20个问题揭穿冒牌数据科学家
如今数据科学家正式成为21世纪最性感的工作,人人都想来分一杯羹。 这也意味着会有一些冒牌货。这些人自称数据科学家,却不具有相应的技能。 这不见得是有意欺骗。数据科学是崭新的领域,目前对此岗位也缺乏被广泛认可的描述。这意味着许多人会认为自己是数据科学家,仅仅因为他们常跟数据打交道。 “冒牌数据科学家通常是某一个特定学科的专家,且坚信他们的学科才是唯一真正的数据…
-
屌丝必看案例:加州大学光棍极客通过大数据搞定女朋友
春节期间,回家面对各种七大姑八大姨的催命问题,相信对于广大的宅男极客来说——“找女朋友没有?”已经被选为最不受欢迎的一句话了。其实在这个大数据时代里,我们生活在一个充满“数据”的世界,找个女朋友真的很难么?有的人可能说了“天天大数据,大数据能帮我找女朋友么?”回答是肯定的,有了“大数据”的帮助,找女朋友的成功率会高很多。请看来自美国的Chris McKinl…
-
如何成为Growth Hacker?这里有一份7大技术指南
Growth hacking 作为初创公司的营销加速之道,“技术+营销”催生的新型复合人才 Growth hacker (增长黑客),则集合了营销人的创造力与工程师的缜密分析能力。 LeMore 之前为大家详细介绍了 Growth hacking 的步骤(初创公司如何利用Growth Hacker实现加速比如,Airbnb),本文我们进一步为大家介绍增长黑客…