用PHP蜘蛛做旅游数据分析

你最喜欢去哪里旅游?

随着物质的提高,旅游渐渐成为人们的焦点,火热的国庆刚刚过去,乘着这股余热,我想很多人都想知道,大家一般会去哪里玩呢,于是我花了10分钟写了一个采集马蜂窝游记的小程序,当然速度能有这么快,完全依赖于PHP著名爬虫框架phpspider。

国际惯例,我们先来看看代码怎么写,算作抛砖引玉吧 ^_^

马蜂窝不同于常规网站,因为并发量高并且某些数据需要实时,比如观看人数,点赞人数,所以网站多处使用了Ajax,而Ajax对于普通采集者来说,是个比较大的问题。

观察了一下马蜂窝网站,最终确定了采集路线:

获取热门城市 -> 获取城市下的游记列表 -> 获取游记内容 -> 提取游记内容的游记标题、城市、出发时间等,接下来我们用三个步骤来实现它。。。

1、获取热门城市:http://www.mafengwo.cn/mdd/citylist/21536.html

用PHP蜘蛛做旅游数据分析

首先我们要采集下这些热门城市

用PHP蜘蛛做旅游数据分析

用PHP蜘蛛做旅游数据分析

当我们点击页数的时候,发现他的数据是Ajax加载的,末页是297,而且使用的是POST方法

用PHP蜘蛛做旅游数据分析

提交的参数如下:

用PHP蜘蛛做旅游数据分析

很明显这个page就是页数了,这里就有个问题,phpspider框架是有 URL 去重机制的,POST的话URL只有一个,但是query_string是不影响POST数据的,我们可以在后面加上 page=1|2|3…,所以我们代码可以这么写:

设置列表页规则:

  1. 'list_url_regexes' => array(
  2. "http://www.mafengwo.cn/mdd/base/list/pagedata_citylistpage=d+",
  3. )

在入口回调函数入口所有城市列表:

  1. $spider->on_scan_page = function($page, $content, $phpspider)
  2. {
  3. // 上面Ajax分页的末页是297页
  4. for ($i = 0; $i <= 297; $i++)
  5. {
  6. // 全国热点城市
  7. $url = "http://www.mafengwo.cn/mdd/base/list/pagedata_citylistpage={$i}";
  8. $options = array(
  9. 'url_type' => $url,
  10. 'method' => 'post',
  11. 'fields' => array(
  12. 'mddid'=>21536,
  13. 'page'=>$i,
  14. )
  15. );
  16. // 热点城市列表页URL入队列
  17. $phpspider->add_url($url, $options);
  18. }
  19. };

2、获取热门城市下的游记列表,点击进入一个城市后,我们可以看到他下面的游记列表

用PHP蜘蛛做旅游数据分析

当然和上面一样,也是Ajax加载的,我们可以打开chrome的开发者工具,点击Network,然后随意点击一个分页得到Ajax的URL:

用PHP蜘蛛做旅游数据分析

和城市列表一样,也是POST,参数如下:

用PHP蜘蛛做旅游数据分析

很明显page就是页数了,当然我们直接通过POST方式访问Ajax地址:

http://www.mafengwo.cn/gonglve/ajax.phpact=get_t

是直接报错的,他需要来路,综合以上,我们代码可以这么来写:

首先我们要在 on_start 回调函数里面加上来路URL

  1. $spider->on_start = function($phpspider)
  2. {
  3. $phpspider->add_header('Referer','http://www.mafengwo.cn/mdd/citylist/21536.html');
  4. };

和上面获取城市列表一样,设置列表匹配规则:

  1. 'list_url_regexes' => array(
  2. "http://www.mafengwo.cn/gonglve/ajax.phpact=get_travellist&mddid=d+",
  3. )

然后在 on_list_page 回调里面判断如果是第一页就获取总页数,然后循环入队列:

  1. preg_match('#<span>共<span>(.*)</span>页#', $data_page, $out);
  2. for ($i = 0; $i < $out[1]; $i++)
  3. {
  4. $v = $page['request']['fields']['mddid'];
  5. $url = "http://www.mafengwo.cn/gonglve/ajax.phpact=get_travellist&mddid={$v}&page={$i}";
  6. $options = array(
  7. 'url_type' => $url,
  8. 'method' => 'post',
  9. 'fields' => array(
  10. 'mddid'=>$v,
  11. 'pageid'=>'mdd_index',
  12. 'sort'=>1,
  13. 'cost'=>0,
  14. 'days'=>0,
  15. 'month'=>0,
  16. 'tagid'=>0,
  17. 'page'=>$i,
  18. )
  19. );
  20. // 游记列表页URL入队列
  21. $phpspider->add_url($url, $options);
  22. }

通过上面两个步骤,我们就把所有热门城市下的游记列表都放入到了队列,接下来我们进行第三步,从这些列表里面获取内容页URL,然后提取内容。

3、获取热门城市下的游记列表,在 on_list_page 方法里面会得到列表页的内容,从这些内容里面我们可以提取内容页的URL

  1. // 获取内容页
  2. preg_match_all('#<a href="/i/(.*).html" target="_blank">#', $html, $out);
  3. if (!empty($out[1]))
  4. {
  5. foreach ($out[1] as $v)
  6. {
  7. $url = "http://www.mafengwo.cn/i/{$v}.html";
  8. // 内容页URL入队列
  9. $phpspider->add_url($url);
  10. }
  11. }

接下来我们来配置field提取内容页字段

  1. 'fields' => array(
  2. // 标题
  3. array(
  4. 'name' => "name",
  5. 'selector' => "//h1[contains(@class,'headtext')]",
  6. 'required' => true,
  7. ),
  8. // 分类
  9. array(
  10. 'name' => "city",
  11. 'selector' => "//div[contains(@class,'relation_mdd')]//a",
  12. 'required' => true,
  13. ),
  14. // 出发时间
  15. array(
  16. 'name' => "date",
  17. 'selector' => "//li[contains(@class,'time')]",
  18. 'required' => true,
  19. ),
  20. )

设计一张数据表:

用PHP蜘蛛做旅游数据分析

当然我们还可以获取游记的浏览量、收藏、分享、置顶、游玩金额等等,太多了,方法类似。

到此程序就设计完了,总共不到200行的代码,得益于phpspider自带了多进程采集功能,数据很快就采集完成,总共7W多点。

用PHP蜘蛛做旅游数据分析

用PHP蜘蛛做旅游数据分析

得到这些数据以后,我们能干什么呢?!

Top10 旅游城市分别是

用PHP蜘蛛做旅游数据分析

可以看得出,云南是一个好地方,也是博主日夜思念的地方啊。。。

五一和国庆期间旅游城市占比

用PHP蜘蛛做旅游数据分析

用PHP蜘蛛做旅游数据分析

可以看得出,五一的时候大家喜欢去西藏玩,国庆却更青睐青岛,好吧,这两个地方博主都没去过,表示好受伤~_~!

接下来我们来看看这一年来北京和杭州的旅游旺季

用PHP蜘蛛做旅游数据分析

可以看出七八月份去北京的人会比较多,这个时候北京是最爽的,不热也不冷,博主就曾经有有一年8月份去的北京,舒服死了^_^

我们再来看看杭州

用PHP蜘蛛做旅游数据分析

看得出3月底到4月中旬是杭州适合游玩的季节啊,那时候春暖花开,天气也不错,听说太子湾公园每年那时候都会有樱花和郁金花展,非常美,艾玛旅游病又犯了~_~!

好吧文章到此就结束了,其实还想分析更多,比如采集热门路线啊,热门景点啊,热门图集啊,还有旅游路线的价位啊,最终形成一个旅游的APP,如果你们有好的想法,也可以来告诉我,我把他采集下来,供大家参考 ^_^

最后,对源代码感兴趣的同学可以上github搜索phpspider哈 ^_^

本文转自 数据人网,作者:酷咔咔,版权归原作者所有,转载请与数据人网或作者联系。

原文链接:http://shujuren.org/article/270.html

本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/39224.html 。

(0)
数据人网的头像数据人网专栏
上一篇 2016-12-15 10:55
下一篇 2016-12-17 08:11

相关文章

关注我们
关注我们
分享本页
返回顶部