本文用Python从上面抓取国服各区及外服王者数据信息,然后用R软件进行数据初探及浅析。旨在发现数据后面的有趣的东西!爱生活,爱数据!
- Python爬取捞月狗数据
要抓取的数据如下图所示:
主要包括王者游戏ID,所在区服,胜点,胜场,负场,胜率,最近状态,擅长位置,本命英雄等。由于捞月狗的数据是每天更新的,所以不同时间爬取数据可能会有所不同。
所用的Python代码如下:
导入所需要的模块:
import requestsimport reimport pandas as pd
设置头部信息:
head={'User-Agent':'你自己的头部信息'}
设置正则来获取国服王者信息:
rem=re.compile(r'class="subStrTitle">(.*)</span>.*server">(.*)</div>.*class="icon-dan"><em>(.*)</em>.*<span>(.*)<em>(.*)<.*\t<span>/</span>.*<span>(.*)<em>(.*)</em>.*"percentage">(.*)</span>.*/score/(.*).png.*color-zhongdan">(.*)</span>.*alt="(.*)"/>.*alt="(.*)"/>.*alt="(.*)"/>',re.S)
外服正则用于获取外服王者信息:
reh=re.compile(r'<span>(.*)</span>.*player-server">(.*)</div>.*<em>(.*)</em>.*<span>(.*)<em.*win">(.*)</em></span>.*<span>.*<span>(.*)<em.*feat">(.*)</em>.*"percentage">(.*)</span>.*score/(.*).png.*"color-zhongdan">(.*)</span>.*src="(.*)">.*src="(.*)">.*src="(.*)">',re.S)
获取国服对应的战区,存放在zhanqu_list_cn中:
url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=cn&area=1'html_cn = requests.get(url_cn,headers = head)reg=re.compile(r'class="cn-li.*href="(.*)">',re.S)zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区
获取外服对应的战区,存放在zhanqu_list_en中:
url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=foreign&area=kr'html_en = requests.get(url_en,headers = head)ren=re.compile(r'class=" foreign-li.*href="(.*)">',re.S)zhanqu_list_en=re.findall(ren,html_en.text)
定义下载中国战区数据的函数:
def updown_cn(zhanqu_list_cn): for zhanqu in zhanqu_list_cn: for m in range(1,11): url=zhanqu+'&page='+str(m) im = requests.get(url,headers = head) if im.status_code == 200: data=re.findall(rem,im.text) #得到数据rem代表国服数据 data=pd.DataFrame(data) data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv', header=False, index=False,mode='a+')#写入csv文件,'a+'是追加模式 data=[]
定义下载外服战区数据的函数:
def updown_en(zhanqu_list_en): for zhanqu in zhanqu_list_en: for m in range(1,11): url=zhanqu+'&page='+str(m) im = requests.get(url,headers = head) if im.status_code == 200: data=re.findall(reh,im.text) #得到数据reh代表外服数据 data=pd.DataFrame(data) data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv', header=False, index=False,mode='a+')#写入csv文件,'a+'是追加模式 data=[]
下载数据:
updown_cn(zhanqu_list_cn) #下载中国战区数据updown_en(zhanqu_list_en) #下载外服战区数据
下载下来的数据保存格式是CSV格式,内容如下图所示:
经过翻看数据,只找到几条格式异常数据(已经手动删除)。
- R语言数据初探
下面用R软件来分析数据,看看能否发现一些有趣的事情!
导入分析是要用的R语言程序包:
library(data.table)library(plotly)library(magrittr)library(wordcloud2)
导入数据:
dt=fread(file.choose())
国服数据:
dt_cn=dt[1:2500] #也就是前2500个
外服数据:
dt_en=dt[2501:4480]
各个战区王者数量(国服):
>dt_cn[,.(.N),by=.(所在战区)] 所在战区 N 1: 艾欧尼亚 90 2: 祖安 80 3: 诺克萨斯 80 4: 班德尔城 90 5: 皮尔特沃夫 90...................25: 扭曲丛林 9926: 教育网专区 2527: 巨龙之巢 9028: 男爵领域 9029: 峡谷之巅 80 所在战区 N
概览数据(国服):
>summary(dt_cn[,.(.N),by=.(所在战区)]) 所在战区 N Length:29 Min. : 25.00 Class :character 1st Qu.: 80.00 Mode :character Median : 90.00 Mean : 86.21 3rd Qu.: 90.00 Max. :100.00 #王者最少的区> dt_cn[,.(.N),by=.(所在战区)][N==25] 所在战区 N1: 教育网专区 25#王者有100人的区(最多也就100人)> dt_cn[,.(.N),by=.(所在战区)][N==100] 所在战区 N1: 均衡教派 1002: 守望之海 100
外服王者数量:
plot_ly(dt_en[,.(.N),by=.(所在战区)],x=~所在战区,y=~N,type="bar")
外服王者数量较多(相对于国服一个区),可能原因是有的外服就一个服务器,比如韩国,另外也和捞月狗统计的数据有关.
国服各区平均胜点:
dt_cn[,.(mean=mean(胜点)),by=.(所在战区)]
这里并不能看出艾欧尼亚是最强的战区。
王者平常都是处于什么游戏状态:
wordcloud2(dt_cn[,.(.N),by=.(最近状态)])
英雄联盟的评价等级是这样递增的D-,D,D+;C-,C,C+;B-,B,B+;A-,A,A+;S-,S,S+!大部分王者的最近状态往往都是S级别的状态。可惜的是该数据集中没有其他段位的数据,如果有的话还可以比较一下各个段位玩家的平时的游戏状态。
王者擅长的位置:
各个大区的王者比较喜欢打野和上单的位置。这两个位置也是英雄联盟中承受伤害比较多的位置,也可以说他们可能更倾向于玩”肉”一点的英雄吧。这样的英雄也是在职业联赛中经常说的容错率比较高。换句话说也就是:又肉又有输出型的英雄。
王者玩家本命英雄(当前版本2017.08.05):
#由于在爬去数据的时候有的本命英雄不是我们预想的,在这里将其删除(也就3~4个).dt_all=fread(file.choose())dt_cn<-dt_all[1:2497]dt_1<-dt_cn[,本命英雄1]dt_2<-dt_cn[,本命英雄2]dt_3<-dt_cn[,本命英雄3]all_hero<-c(dt_1,dt_2,dt_3) #所有的英雄table(all_hero)%>%data.frame()%>%wordcloud2(shape='star')#以星型方式绘制云图。
不愧是王者玩家,玩盲僧这样”骚气“操作的英雄。。。。。。(由于外服的本命英雄在爬取的时候爬到的都是一些图片链接,不方便可视化,所以以上云图不含外服数据)
总结:
- 朋友们听我一句劝,放下游戏吧, 出去走走, 读几页自己喜欢的书,去自己喜欢的地方走走,陪陪喜欢的人,晚上无聊的时候 约几个朋友出去喝喝茶,聊聊天, 真的一天下来,你会发现还是玩游戏有意思!
关于作者:
- 姓名:麦艳涛
- 网名:挖掘机小王子
- 个人网站:
- 微信:Gorgon—Medusa
- QQ邮箱:WaJueJiPrince@qq.com
- 个人简介:数据分析爱好者
转载请注明出处:
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。