如何使用 Python 开始建立你的数据分析项目

数据工匠 • 2017-07-05 04:55 • Python

数据分析的基本内容究竟是什么样的？你应当怎样安排项目结构？你需要使用什么样的工具？

现在有很多博文对复杂的机器学习算法和前沿的技术进行了展示，而这也促使数据科学家们慢慢变成了“社交控”（FOMO）。但数据分析的基本内容究竟是什么样的？你应当怎样安排项目结构？你需要使用什么样的工具？等等诸如此类的问题却鲜有人问津。本文将会对如何建立项目提供一些启发思路，以帮助你快速达到在数据科学领域能有所产出的境界。

项目结构

项目的结构总是为了契合人们的需求而得到不断完善，这会导致在一个团队中出现不同的项目构架。如果你或者团队中的其他人能够及时发现项目结构的重要性，并且这个概念在团队中得到推广，那么，你无疑是幸运的。

多年前作者偶然发现了 R 语言的项目模板网站。从那之后，作者便一直提倡身边的人使用规范的项目结构。最近，DrivenData 发布了更为普适的 Cookiecutter Data Science 来构建项目结构。

而这些网站在项目构建方面的思路大致如下：

一个连贯且组织良好的结构，以便于人们协作
你的分析应当可复现，而你的项目结构可以满足这个需求
不应该从原始数据作为出发点开始你的项目，而应当假设原始数据不变，创建其他派生的文件

作者简略的项目结构如下所示：

example_project/
├── data/               <- The original, immutable data dump.
├── figures/            <- Figures saved by notebooks and scripts.
├── notebooks/          <- Jupyter notebooks.
├── output/             <- Processed data, models, logs, etc.
├── exampleproject/     <- Python package with source code.
│   └──>这里 看到相关实例。

项目通常遵循另一种结构：

 	原始数据不变，存储在 data/中；
 	数据处理和相关输出图分别存储在不同的文件夹下，例如：figures/和output/；
 	笔记文件存储在notebooks/；
 	项目信息撰写在README.md中；
 	项目代码放置在独立的文件夹下。

实际上，你选择什么样的项目结构并不重要，只要它能符合你的工作流程，你也能坚持使用它。你应该尝试去理解何为项目，从而选择满足要求的项目结构。
虚拟环境
项目之间应当相互独立，你肯定不希望新的项目打乱了之前的工作成果。我们可以通过把不同项目的文件存储在不同的文件夹下实现独立性，但是不同项目之间也应当使用不同的 Python 环境。

虚拟环境依赖于不同的项目而相互独立，避免了包的冲突问题。每个虚拟环境都安装了特定版本的不同包。虚拟环境一中安装了版本为 1.11 的numpy库和版本为 0.18 的pandas库，而虚拟环境二中则仅仅安装了版本为 0.17 的pandas库。作者选取适用于数据科学的 conda 管理虚拟环境（可在 这里 看到选择它的原因）。

下列命令可以创建一个使用 Python 3.5 的新的 conda 虚拟环境，命名为 example_project：

$ conda install --name example_project python=3.5


激活虚拟环境（ Windows 系统下将 source 省去）：

$ source activate example_project


之后便可以安装所需的包了：

$ conda install pandas numpy jupyter scikit-learn


当你在不同的项目间跳转时，可以运行source deactivate命令取消激活，并激活新的项目虚拟环境。
一旦你熟练使用activate和deactivate命令，就会发现虚拟环境是一个很轻巧的工具来保证 Python 环境的独立。通过导出环境定义文件（例如，所有安装的包名和版本号），你的项目就很容易得到复现了。如果你想查看更多细节，可在Tim Hopper 的博文 中看到。
Git
每个项目都应该有自己的 Git 资源库。在每个项目创建一个资源库可以帮助你追踪每个项目的历史和解决在不同的项目间复杂的版本依赖问题。
又或者，你可以选择在一个资源库中包含多个项目，将所有内容存储在一个位置。这样做的缺点在于往往会因为合并冲突问题而告终（数据科学家通常并不能熟练使用 Git ）。除了很多使用 Git 时出现的问题，这也会导致你的项目之间缺乏独立性。
创建 Git 资源库最简单的方法就是在你的 Git 远程主机托管服务（例如，Github 和 GitLab ）上创建一个新的 Git 资源库，然后把它复制到本地：

$ git clone https://github.com/hgrif/example-project.git


你可以在这个空文件夹下构建你的项目结构。
如果你按照这个步骤执行，并准备在一个新文件夹下创建一些文件了。那么，你首先还需要在电脑上对 git 资源库进行初始化：

$ git init


然后在你的远程主机上创建一个新的 git 资源库，得到它的链接，并运行下列命令：

$ git remote add origin https://github.com/hgrif/example-project.git


该命令会添加链接为 https://github.com/hgrif/example-project.git 的远程资源库，并命令为 origin 。你可能需要把现有的 master分支推送到origin上：

$ git push --set-upstream origin master


在你的项目目录下创建.gitignore文件可以避免将图或数据误填加进资源库中。作者一般使用 针对 Python 的.gitignore文件 ，并且在文件中加入 data/、figures/ 和 output/ 文件夹，以便 Git 可以忽略它们。
既然 Git 已经设置好了，你就可以对核心内容使用git add和git commit命令了！
使用工具
使用一些工具可以帮助你摆脱那些重复性工作。
Python 中的cookiecutter包可根据模板自动创建项目文件夹。你可以使用现有的模板，例如，Cookiecutter Data Science 或者 作者的项目结构模板 ，或是创建你自己新的模板。
使用虚拟环境最好的方法就是选用支持它们的编辑器，比如：PyCharm 。你也可以使用 autoenv 或者 direnv 去激活虚拟环境，并设置环境的变量，如果你cd定位到一个工作目录下的话。
结论
对你的数据科学项目有一个良好的设置将会有助于同其他人协作，并且项目本身也会更容易复现。一个好的项目结构，一个虚拟环境和一个 git 资源库是每个数据科学项目的基石。
原文链接：How to Start a Data Science Project in Python
原文作者：Henk Griffioen
译作者：Vector
本文为专栏文章，来自：数据工匠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/45814.html 。


数据科学家数据分析Python

 赞 (0)





数据工匠专栏                                        



 0                                                                                                                    

 生成海报





使用python和tableau对数据进行抓取及可视化


 上一篇
2017-06-27 22:21




从头开始：用Python实现随机森林算法


下一篇 
2017-07-06 19:42






                                            
相关文章




            
数据分析        


舆情管理系统：数据分析帮你掌握话语权            


00                


                    KPMG大数据挖掘

2016-09-14






            
大数据峰会        


上海联通“沃+”开放数据应用大赛（2016年3月25日正式开幕）            


00                


                    大数据峰会

2016-03-24






            
人物观点        


袁帅：方差在数据驱动企业运营管理中销售管理上的应用            


00                


                    袁帅

2017-08-18






            
人物观点        


GrowingIO：DT时代数据本身才是问题所在            


00                


                    张溪梦

2015-12-04






            
人工智能        


掌握机器学习技术从这些编程语言和程式库开始            


00                


                    化学数据联盟

2016-04-28






            
人物观点        


神策数据CEO桑文锋:重视数据源的作用,让数据分析带来新的价值            


00                


                    Afenxi朋友们

2017-01-28






            


数据工匠专栏
数据工匠（合作媒体），公司主要提供数据分析服务与产品，具体内容包括对企业与政府机构提供大数据咨询；平台级的通用化数据分析产品（软件）开发。



74
文章


8
粉丝



            

最近文章
                    强化学习与简单多臂老虎机问题
如何使用ggplot2绘制公共债务地图
在量化交易回测中容易犯的9个错误
            
热门文章
            



                            


干货长文分享：十年BI厂商带你解锁服装业大数据分析平台那些事                                






                            


香港数据中心落户具战略优势 0.08秒覆盖全球2/3人口                                






                            


什么是环比指数？                                






                            


2015年度大数据应用经典案例Top100                                






                            


用R语言进行数据分析：数据框                                






                            


你搞清楚竞品分析和产品分析的区别了么？                                






                            


数据中台百家争鸣，到底谁的好？我这里设计了一套指标评估体系                                






                            


Sensor Tower：2021年9月全球热门移动游戏下载量TOP10                                






                            


趣味数据挖掘系列1：被打”和“北大” 的关联                                






                            


大数据日报（20191030）：全球首个粪便数据库，Facebook AI提出新框架TensorMask                                




热门主题
Analytics Insight
APP下载榜单
Canalys
ClickHouse
Dragon
Microscope
Qumulo
TikTok数据平台
Weibull
南京智博会
商务智能
小满科技
微软研究院
数据信息图
数据分析思维
数据获取
数据赋能
数据选品
显著性
智能音箱
水晶易表
经营分析
蕴硕物联
魔法数字









关于我们
免责声明
广告及服务
热门主题
作者列表
大数据导航
帮助中心
                
Copyright © 2022-2025 Afenxi.com 版权所有  浙ICP备11037353号





                                                            

                                                            

                                                            

                                                            

                                                            







                                    关注我们                                    
                                    


                        分享本页                    

                        返回顶部                    




                                领取资料