摘要:为了理解和应用机器学习技术,你需要学习Python或者R。这两者都是与C、Java、PHP相类似的编程语言。但是,因为Python与R都比较年轻,而且更加“远离”CPU,所以它们显得简单一些。相对于R只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据,Python的优势在于它适用于许多其他的问题。因为Python拥有更广阔的分布(使用Jango托管网站,自然语言处理NLP,访问Twitter、Linkedin等网站的API),同时类似于更多的传统语言,比如Cpython就比较流行。
在Python中学习机器学习的四个步骤
1、首先你要使用书籍、课程、视频来学习Python的基础知识
2、然后你必需掌握不同的模块,比如Pandas、Numpy、Matplotlib、NLP(自然语言处理),来处理、清理、绘图和理解数据。
3、接着你必需能够从网页抓取数据,无论是通过网站API,还是网页抓取模块BeautifulSoap。通过网页抓取可以收集数据,应用于机器学习算法。
4、最后一步,你必需学习机器学习工具,比如Scikit-Learn,或者在抓取的数据中执行机器学习算法(ML-algorithm)。
1.Python入门指南:
有一个简单而快速学习Python的方法,是在codecademy.com注册,然后开始编程,并学习Python基础知识。另一个学习Python的经典方法是通过learnpythonthehardway,一个为广大Python编程者所推荐的网站。然后还有一个优秀的PDF,byteofpython。python社团还为初学者准备了一个Python资源列表listofpythonresources。同时,还有来自O’Reilley的书籍《ThinkPython》,也可以从这里免费下载。最后一个资源是 Python用于计量经济学、统计学和数据分析的介绍:《IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis》,其中也包含了Python的基础知识。
2.机器学习的重要模块
关于机器学习最重要的模块是:NumPy,Pandas,Matplotlib和IPython。有一本书涵盖了其中一些模块:《DataAnalysiswithOpenSourceTools》。然后免费书籍《IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis》,同时也包括 Numpy,Pandas,Matplotlib和IPython这几个模块。还有一个资源是PythonforDataAnalysis:DataWranglingwithPandas,NumPy,andIPython,也包含了一些很重要的模块。以下是其他免费模块的相关链接:Numpy(NumericalPython,NumpyUserguide,GuidetoNumPy),Pandas(Pandas,PowerfulPythonDataAnalysisToolkit,PracticalBusinessPython,IntrostoPandasDataStructure)和Matplotlibbooks。
其它资源:
3.从网站通过API挖掘和抓取数据
一旦理解了Python的基础知识和最重要的模块,你必需要学习如何从不同的源收集数据。这个技术也被称作网页抓取。传统的源是网站文本,通过API进入twitter或linkedin一类网站得到的文本数据。网页抓取方面的优秀书籍包括:《MiningtheSocialWeb》(免费书籍),《WebScrapingwithPython》和《WebScrapingwithPython:CollectingDatafromtheModernWeb》。
最后这个文本数据必须要转换为数值数据,通过自然语言处理(NLP)技术完成,NaturallanguageprocessingwithPython和NaturalLanguageAnnotationforMachineLearning上面有相应的资料。其它的数据包括图片和视频,可以使用计算机图像技术分析:ProgrammingComputerVisionwithPython,ProgrammingComputerVisionwithPython:Toolsandalgorithmsforanalyzingimages和PracticalPythonandOpenCV,这些是图片分析方面的典型资源。
以下例子中包括可以用基本的Python命令行实现,有教育意义,而且有趣的例子,以及网页抓取技术。
- Mini-Tutorial:SavingTweetstoaDatabasewithPython(微型教程:使用Python保存推文到数据库)
- WebScrapingIndeedforKeyDataScienceJobSkills(网页抓取关键数据科学工作技巧)
- CaseStudy:SentimentAnalysisOnMovieReviews(案例学习:电影评论中的情感分析)
- FirstWebScraper(第一网页抓取)
- SentimentAnalysisofEmails(邮件的情感分析)
- SimpleTextClassification(简单文本分类)
- BasicSentimentAnalysiswithPython(Python基础情感分析)
- TwittersentimentanalysisusingPythonandNLTK(使用Python和NLTK做Twitter情感分析)
- SecondTry:SentimentAnalysisinPython(第二个尝试:Python情感分析)
- NaturalLanguageProcessinginaKaggleCompetitionforMovieReviews(电影评论相关KaggleCompetition中的NLP自然语言处理)
4.Python中的机器学习
机器学习可以分为四组:分类,聚类,回归和降维。

“分类”也可以称作监督学习,有助于分类图片,用来识别图片中的特征或脸型,或者通过用户外形来分类用户,并给他赋不同的分数值。“聚类”发生在无监督学习的情况,允许用户在数据中识别组/集群。“回归”允许通过参数集估算一个值,可以应用于预测住宅、公寓或汽车的最优价格。
modules,packagesandtechniques罗列了Python、C、Scala、Java、Julia、MATLAB、Go、R和Ruby等语言中所有学习机器学习的重要模块、包和技巧。有关Python机器学习的书籍,我特别推荐《Machinelearninginaction》。尽管有点短,但它很可能是机器学习中的经典,因为它提到了“集体智慧编程时代”:ProgrammingCollectiveIntelligence。这两本书帮助你通过抓取数据建立机器学习。最近关于机器学习的出版物大多都是基于模块scikit-learn。由于所有的算法在模块中都已实现,使得机器学习非常简单。你唯一要做的事就是告诉Python,应该使用哪一个机器学习技巧(ML-technique)来分析数据。
免费的scikit-learn教程可以在 scikit-learn 官方网站上找到。其他的帖子可以通过以下链接获取:
- IntroductiontoMachineLearningwithPythonandScikit-Learn(机器学习中 Python 和 Scikit-Learn 的介绍)
- DataScienceinPython(Python 中的数据科学)
- MachineLearningforPredictingBadLoans(用机器学习来预测坏账)
- AGenericArchitectureforTextClassificationwithMachineLearning(通过机器学习来分类文本的通用架构)
- UsingPythonandAItopredicttypesofwine(利用Python和AI人工智能来预测酒的品种)
- AdviceforapplyingMachineLearning(应用机器学习的建议)
- Predictingcustomerchurnwithscikit-learn(使用scikit-learn预测用户流失)
- MappingYourMusicCollection(映射你的音乐收藏)
- DataScienceinPython(Python中的数据科学)
- CaseStudy:SentimentAnalysisonMovieReviews(案例学习:电影评论中的情感分析)
- DocumentClusteringwithPython(Python中的文档聚类)
- Fivemostpopularsimilaritymeasuresimplementationinpython(5个最流行的Python相似度测量的实现)
- CaseStudy:SentimentAnalysisonMovieReviews(案例学习:电影评论中的情感分析)
- WillitPython(将会是Python么?)
- TextProcessinginMachineLearning(机器学习中的文本处理)
- HackinganepicNHLgoalcelebrationwithahuelightshowandreal-timemachinelearning(使用色彩灯光秀和实时机器学习黑入史诗级NHL(北美冰球联赛)进球庆祝)
- VancouverRoomPrices(温哥华房间价格)
- ExploringandPredictingUniversityFacultySalaries(探索和预测大学教师工资)
- PredictingAirlineDelays(预测航班延误)
关于机器学习和 Python 中模块 scikit-learn 的书籍:
- Collectionofbooksonreddit(收集reddit新闻网站上的书籍)
- BuildingMachineLearningSystemswithPython(用Python建立机器学习系统)
- BuildingMachineLearningSystemswithPython,2ndEdition(用Python建立机器学习系统,第二版)
- Learningscikit-learn:MachineLearninginPython(学习scikit-learn:Python中的机器学习)
- MachineLearningAlgorithmicPerspective(透视机器学习算法)
- DataSciencefromScratch–FirstPrincipleswithPython(抓取的数据科学——关于Python的首要原则)
- MachineLearninginPython(Python中的机器学习)
接下来数月将要发行的书籍包括:
- 《IntroductiontoMachineLearningwithPython》(Python机器学习的介绍)
- 《ThoughtfulMachineLearningwithPython:ATest-DrivenApproach》(思考 Python机器学习:接近测试驱动)
机器学习相关的课程和博客
你想要得到一个学位,加入在线课程,或者参加线下讲习班、大本营或大学课程么?这里有一些关于逻辑分析、大数据、数据挖掘和数据科学的在线教育站点链接:Collectionoflinks。另外推荐一些在线课程–来自Udacity的Coursera课程:machinelearning和DataAnalystNanodegree。还有一些关于机器学习的博客列表:Listoffrequentlyupdatedblogs。
最后是来自JakeVanderplas和OlivierGrisel,关于探索机器学习的优秀youtube视频课程。
机器学习理论
想要学习机器学习的理论?那么,《TheElementsofstatisticalLearning》和《IntroductiontoStatisticalLearning》是常常被引用的经典。然后还有另外两本书籍:《Introductiontomachinelearning》和《ACourseinMachineLearning》。这些链接包括免费的PDF,你不需要付费!如果不想阅读这些书籍,请观看视频:15hourstheoryofmachinelearning!
本文由 伯乐在线 – J.F. 翻译,renlytime 校稿。
英文出处:lorenzibex。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。