传说中的春运抢票,是一项对手眼协调速度、徒手计算机操作速度、奇特图形辨识速度等个人身体能力,对计算机配置、网速、网络稳定性等硬件基础设施条件,对地区经济发展、交通运输水平等宏观经济背景,以及运气等不确定因素的综合比拼。
已抢到的,恭喜恭喜;没抢到的,快点放弃。
最近,我们做了一个测试实验,从12306网站上采集了春节期间从上海出发去往全国各个城市大约500班列车的实时余票数据(数据技术细节请看文末),希望能用这些数据帮我们搞清楚一个问题:
春运抢票到底有多难?
我们抽选了几条线路的余票数量变化情况,一看便知:
上图是G1359次列车的上海虹桥-长沙南站的余票情况。这个区段的特等座和一等座有部分余票,主要竞争在于二等座。二等座在放票后1分钟有58张票剩余,之后经历了数抢票-退票风潮(退票也可能是付款失败造成的),在放票后1600秒左右(约27分钟)售罄。
(注:类似58-20,20-58,58-20这样整齐的票数波动情况在理论上不会存在,但在我们的样本中很常见,可能是受到数据采集时网络稳定程度的影响,对真实情况的表征有一定偏差。)
与长沙的票数阶梯状逐步减少相比,其他线路的竞争则要激烈得多:
上图是K152的上海-商丘段的余票情况。开始放票后,硬座、硬卧、软卧瞬间被抢空,而少量剩余的无座票则经历了无数轮血腥激烈的拼抢,退票抢票的时间间隔往往只有几秒。半小时后,战斗才暂时告一段落。
相比商丘的血腥激烈,到重庆的余票数量变化则体现了抢票人的犹豫纠结:
上图中是D636次列车的从上海虹桥-重庆北站区间的余票情况。绝大部分票瞬间被抢购一空。此后半小时内,陆续产生了3张无座票的余票,分别在2分钟后、16分钟后和半分钟后才被抢走。是的,这班车历时12小时51分钟,要不要站回去,的确令人纠结。
在这些随机抽取出的个案后面,其实都是无数不停刷新和点击鼠标的抢票乘客。我们把所有班次的数据汇总,可以得到以下结论:
一、春运抢票,一分钟定生死
按照目的地进行统计,可以看到,开始放票后1分钟,有35座城镇的全部列车、全部座位的火车票售罄;而我们把统计时间延长到放票30分钟之后,城镇数量也只是增加到了36座。抢票最难的35座城镇列表见下图:
很明显,1分钟内票被抢光的城市,30分钟内也基本不可能抢到票了;而1分钟内票没有被抢光的城市,则可能根本不需要抢。
所以,假如你在1分钟内没有抢到票,那么恭喜你,你可以停止刷新并离开战斗页面了。
春运抢票就是这么残酷:1分钟定死生。
二、哪些地方还有余票?
现在,我们已经知道1分钟生死线原理了,那接下来我们就计算一下放票1分钟后各个城镇的剩余票量,落在地图上:
在上图中,颜色越绿表示该城镇的余票量越多,红色的表示余票量在10张以下。可以看到:
- 全国大部分地区城市仍有余票;
- 余票量较低的城市集中在山西陕西、湖北湖南、以及西南云贵一带;
- 有36座城镇(包括哈尔滨、宝鸡、唐山、昆明、咸阳、延安、荆州等)在放票后1分钟各种票全部售罄,共占样本城镇总数的18%。
总体而言:82%的城镇在1分钟生死线后还仍有余票。
比如说郑州。从上海前往郑州的车票,经过1分钟生死线后,余票总计仍有4600余张。
比如说成都。从上海前往成都的车票,经过1分钟生死线后,余票仍有2000余张。
但是问题来了:
传说中的全河南全四川都买不到火车票呢?这到底是怎么回事呢?
三、起讫时段和有无座位,才是隐藏在“仍有余票”信息下的关键因素
还是以郑州为例吧,我们仔细查看一下余票信息便知,这些余票主要分布在K4046、K4168、G368、G1826等列车上。而列车时刻表显示:
K4046和K4168的发车时间为凌晨:2:50和3:55;
G368和G1826的发车时间在晚饭时分,而到达时间则在深夜:23:02和23:28。
再来来看看成都的例子。一分钟生死线后,上海往成都方向有余票2000余张,但值得注意的是,这些余票全部都显示为:
无座。
上海前往成都的3256次列车,历时47小时18分钟;上海前往成都的K4138次列车,历时40小时1分钟。
很简单:一些春运热门目的地在1分钟生死线后仍会有余票,因为这些班次立车要么时段很差,要么根本买不到座位。
四、1分钟生死线后,60%的车次都买不到有座位的票
考虑到我们并不是每个人都愿意半夜摸黑出入火车站,或者有强大的体力和意志力一路站回家,假设我们希望出发到达时刻至少有一个在“朝六晚九”时段内(该标准的制定,参考了每半小时的出发达到列车数,和大部分乘客的主观感受),且回家路上至少有一个座位/铺位的话,抢票会变得多困难呢?
如果我们只抢符合上述要求的票,那么1分钟生死线后车票售罄的城镇数量将从36个剧增到122个,样本数占比也从18%上升到60%,增长了3倍还要多。
这些新进入售罄名单的城镇包括:成都、重庆、东莞、桂林、怀化、锦州、乌鲁木齐等。
我们将新条件下的余票情况画在地图上:
由上图可知:
- 从上海出发的时间适宜、有座位/铺位的列车,仅在长三角地区、京沪线上以及福建等地区还有有少量余票;
- 全国大部分地区都已经全部呈现红色。1分钟生死线过后,一票难求。
现在我们明白了:
春运也许并非一票难求,真正难求的是那张能让我们有尊严地坐着回家的票。
五、越是偏远且经济落后地区,越是一票难求
以上,我们分析了不同条件下的余票情景,但作为一个在魔都生活的外地人,还有一个问题没有回答:
到底上海前往哪里的春运票更难抢呢?
我们仍然以抢到“可以有尊严地坐着回家的火车票”作为目标,按照与城镇等级和与上海的距离对城镇进行分类,比较各类城镇在1分钟生死线后的余票情况,统计结果如下图所示:
从距离上看,目的地距离上海越远,票越难抢;
从城市等级来看,目的地越是小城镇,票越难抢。
从上海去到同为一线城市的北广深,票不需要抢;
去往同处长三角的南京杭州,票不需要抢。
真正被疯抢的车票,是那些远离上海的小城镇,比如湖北恩施、四川达州、辽宁铁岭以及河南驻马店……
而真正抢不到那张车票的,也很可能正是最需要那张票的、想带着尊严回家的人。
大概就是这样。
以下是本次数据采集情况的说明
数据采集源
www.12306.cn
数据采集对象
出发站为“上海、上海南、上海西及上海虹桥”、到达站为“与上海联系度最高的200个城镇”的火车站(共计297个)的所有班次列车(共计478班)。
关于城市联系度的计算方法,请参考我们的历史文章是时候评估一下被“钦定”的十大城市群了【精简版】
数据采集字段
478班列车的所有实时余票数量数据。
数据采集时间
2016年12月22日下午三个主要放票时间点开始后的1-30分钟,分别为13:31-14:00、14:31-15:00、15:31-16:00。
之所以在放票1分钟后才开始采集,是为了尽量不干扰售票系统的正常运行;据估算,我们当天对12306网站的访问量约为40万次,只占该网站的总访问量(超过400亿次)的十万分之一,影响可以忽略不计。
数据采集精度
15秒。在采集时间内的三个时段内,我们每隔15秒刷新并采集一次新的余票数量数据。
之所以选择15秒作为采集精度,是因为数据团的小伙伴人肉测试了一下抢票时间,从刷到票到输完验证码确认订票花费时间差不多是在15秒左右。如果你速度更快那么我只能表示钦佩。
注:
本文作者为 团支书、兔兔,由微信公众号“城市数据团”原创并首发
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。