背景
每个做数据分析的人员应该尝试过热力图,热力图包含线上&线下,线上的热力图其实根据用户点击次数来绘制,其目的就是给网站运营&移动运营产品经理等提供对页面按钮&功能参考,从而得知用户兴趣倾向,精简按钮等。
而线下的热力图又叫等值线地图(choropleth map),以不同颜色表示不同的人口密度、天气情况、人均收入、或者社会价值等。我们的现实生活中用的最多的是反应人口密度的线下热力图,但是我们通常也往往遇到一个问题,这些漂亮的图有啥用?同时,也会引起我们的反思,难道线下数据只有热力图这个用途么?
线下数据的数据源
先说用途之前,我们先说说人口密度数据从哪来,线下热力图的核心就是获取:经纬度;地址
线下热力图的数据可以从几个方面来说,
- IP 地址:
IP可以通过各种网段来判断地址,目前IPV4协议使用的是32位地址,约有42亿个地址,全球共用,中国约分配到6000多万个IP地址,同理各个省、各个地区的地址段也不一样,因此可以从地址段ip数判断用户密度。
但是,现在大部分ip地址是动态ip,如果用ip地址打比方是门牌号的话,动态ip地址就是反应此用户经常搬家,门牌号不固定,这样不能精准定位人群以及确定用户的活动范围
所以IP地址通常定位的数据范围是城市、省
- GPS:
GPS全球卫星定位导航系统,常用的设备中其他蜂窝电话网络如GSM/GPRS也有类似自定位技术
但是一般而言,GPS会有很多问题
- 需要开启定位功能的终端或者APP
- GPS定位卫星的标准钟时间不统一,致使在计算客户端到相应卫星的距离时有误差
- 运动状态,GPS信号频繁变化
- WIFI:其原理就是用AP(路由)接收Beacon,或者发送请求帧(probe request)
- 被动扫描:就是我们说的wifi 探针,原理就是通过安装在特定的路由,通过握手协议将手机mac地址收集。
- 自动扫描:手机不定时会发送请求收集wifi信号,同样也是握手协议,但是我们知道ssid和bssid,但是不知道他们的对应关系(ssid 可以理解路由器名称;bssid其实就是路由器的mac地址)因此很多公司会派出很多人力去各大地方用自己手机探测wifi去寻找bssid
同时,不管主动扫描、被动扫描,wifi信号强弱都会被同一个手机握手协议去收集(即穿墙技术),只能通过规则,时长等来判断此设备到底停留在具体位置。
再者,由于iphone ios8 以上,会发送假的mac地址,因此,不能只通过握手协议来判断,所以wifi确定的大部分设备系统为安卓
数据源 | 优势 | 劣势 |
IP地址 | 收集方便,节省IP地址 | 1.动态ip,不能精确定位人群活动范围 |
GPS | 地址精确 | 1. 用户需要开启定位功能手机&应用
2. GPS标准时钟不统一 3. 运动状态下GPS信号频繁变化 |
Wifi | 1. 不需要链接wifi,容易收集
2. 可以定位到家庭,商场品类,易分类和做运营 | 3. wifi覆盖少,数据收集不到
4. wifi覆盖多,数据多次被收集,造成复写 5. wifi资源成本高 6. bssid 和ssid 难找对应,需要耗费大量人力寻找对应 |
线下数据的用途
线下数据源其实对后期数据用途的理解起到一定作用,那么我们这就聊聊线下数据应该怎么使用
用途1-估算人口,合理配置资源
我们常用的线下数据是反应人口比例密度,来估算某处的人流量,来提供线下资源配置建议
例如某金融机构,目前的遇到问题需要解决现有网点和人流密度差异,即想查看某处周围人流密度过于稀疏,或者过于集中而应该减少或者增加网点,支持业务需求。
同时,通过对热力图采样的人流数据,和实际人口统计的人数,估算某地点的人数,与实际kpi核对是否达到设置网点的承载能力。
于是,线下数据用途之一观察热力图,估算人口(见图1),我们可以根据估算的用户数增减网点配比
当然这里是数值是用手机的GPS数据来反应人口密度,数值还可以用发声用户量,人口属性(男女),年龄段最多人数比例等,或者app类型数据等来反映,其目的是要解决实际业务和线下数据问题,这里不赘述,欢迎讨论
案例1:下图是某地域的在15年7月1-7月6日的热力图,而图中的编号代表营业网点,可以通过比对建议网点配置合理化,从图中可以看到编号9、10、13附近应该增设网点
案例2:根据工作日VS周末的不同时间,来估算人口数量
下图占比为抽样数据中指定时间内出现在特定地点的流量占比。借助流量占比,结合深圳人口,估算以上地区的流量。下图工作日的设备密度大于周末,如工作日海岸城在下午和晚上密度较大,周末则选择18点后去海岸城。
那么在配置网点时候可考虑周末在海岸城地区多延长运营时间
用途2-线下人群聚类,构造用户画像
用途1学会了看热力图,如果我们想了解某个地点的人群画像,一般情况下是通过围栏圈定人群,在根据用户其他属性做分析得到,此处的数据一般互联网公司线上属性都可以收集到,就可以刻画出来。
但是我们想多维度的了解用户,给用户分类,标签客户,精准化营销,这时候就需要做聚类
案例3:某商业地产客户想了解用户线下访问店铺情况,在精准营销同时,合理配置店铺资源
数据说明:
- 以某商业地产筛选为目标客户,在为期一周内出现在商场的用户
- 数据收集根据wifi探针方式,用访问手机设备来假设人流密度情况
- 筛选规则为访问时间大于半小时,同时排除24点到早6点访问的客户(由于wifi探针缺点,故定制筛选规则)
- 在统计周期内,若该客户访问店铺满足筛选规则,则标记1,否则为0,具体变量(即店铺类型)如下表
变量 | 变量描述 |
西餐快餐 | 大家乐、汉堡王、麦当劳、赛百味 |
美体美发 | 娇虞美睫、丝域养发馆、思妍丽、思意美妆、音斯戴、悦己美甲 |
甜品咖啡 | BAESAn 813 club、costacoffe、85度*、埃克斯、猫屎咖啡、奈雪茶、星巴克 |
中餐 | 海底捞、红砖房、江南味道、丽江人家、润园四季、陕西巷子、胜记、湘忘江湖、一品川菜、珍味汤馆 |
城市休闲 | 广东中旅*、名创优品、无印良品、亚洲眼睛 |
服饰衣帽 | 百丽、北欧男神、思加图 |
小吃快餐 | 艾米家、面点王、蓉李记 |
医药 | 中联大药房 |
亲子 | 优优偶来喽 |
珠宝首饰 | 愿品界香*、玉临君、愿品缘起 |
异国风味 | 艾嘉路、茶啖、味即 |
超市便利店 | Smart、全家 |
根据建模结果,因此将客户分为下图四种类型,
同时,根据用户匹配线上资源我们得到营销建议
用途3-线下圈人,预测潜客
我们现在了解已知客户的人群,如何来找的潜在客户人群,了解相似人群分布,便于我们在招商引资过程中合理配置资源,比如偏爱中餐的用户中我们通过预测得知他们在北京角门东分布集中,那么如果在角门东某商业地产多引资西餐显然并不合理。
但是如何构建潜在客户呢,其实,这里面需要运用预测模型,常用的是逻辑回归,分为正负样本,其中某一类变量是线下地理位置,在对潜客进行预测打分
但是大部分公司线下地理位置加工只是停留在区域,并没有归类,例如:我们知道某处幼儿园的用户,但是我们不知道这一个省份中所有幼儿园的用户,一般来说我们圈定人群就是根据经纬度来划分,但是我们需要找寻某区域所有幼儿园附近的用户,这需要数据公司人为归类,同时利用geohash技术进行详细规整
下图简版的地理位置数据加工,我们根据热力图情况和每时段人次,找寻人口密集的地域,例如某时间周期内,出现人数最多的是四川省成都青阳区,我们知道他的经纬度(GPS获取),从百度地图中看出附近是交通枢纽,在用geohash(精度4-6) 来圈定出现过此区域的人群都是在交通枢纽,这部分就是所说的地域加工。
这个是构建模型加工数据的变量之一,我们后续在区根据其他变量,例如线上属性,手机品牌等,来构建逻辑回归预测人群,很多公司也叫此技术为lookalike技术,但是每家公司变量加工维度,变量获取不同,因此只能给出一个打分排序,分值高低不能说明问题。 后续笔者会着重写下简版的预测人群的建模过程文章, 欢迎阅读
小结:
因此,线下数据不光只是通过热力图来看,重点是如何用这些数据,构建人群画像,获取潜客,来达精准化营销,资源配置,估算人口,招商引资等。但是,这些是方法,我们需要了解线下数据的获取来源,以及优缺点,这样我们在做人口估算,人群画像,预测过程中才能有的放矢,取长补短
作者简介:
冯大福(微信号:gh_89911e909cdf,说说数据分析那些事儿),金融行业数据分析&数据挖掘数据运营&营销数据分析
本文由作者 冯大福 投稿至数据分析网并经编辑发布,版权归作者所有,转载请与作者联系。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。