数据工匠专栏
-
强化学习与简单多臂老虎机问题
在强化学习里有四个基本的概念会经常出现在相关的文章中,策略、奖励、价值函数以及环境模型。
-
如何使用ggplot2绘制公共债务地图
想要精通数据科学,你必须不断地实践。
-
在量化交易回测中容易犯的9个错误
回测是用来否定一个策略的最好的方法,但不一定适合来肯定一个策略。
-
Kaggle入门手册
顶尖的团队拥有数十年的综合经验,处理有挑战的问题,如改善机场安全或分析卫星数据。
-
数据处理性能对比(Python原生 vs Pandas vs Numpy)
对于任何数据科学家来说,速度和时间都是一个关键因素。在商业活动中,通常不会使用仅仅有数千个样本的玩具数据集。大部分时候你的数据集包括数百万或数亿个样本。客户订单,网络日志,帐单活动,股票价格等 – 现在的数据集非常庞大。
-
2017年的数据工程生态系统
虽然没有人知道数据领域的未来如何,但有一点很清楚——新技术将使我们能够进一步利用我们的数据。无论是新技术和服务的出现,还是现有的功能的增加,开发人员都将拥有更丰富的工具来构建数据管道和平台。
-
用 TensorFlow 训练 Doom 机器人
ViZDoom 是一个 AI 研究平台,允许你训练机器人来玩 Doom,这是 1993 年最初由 id Software 发布的经典第一人称视角射击游戏。ViZDoom 使用一款开源 Doom 引擎 ZDoom 与游戏进行交互。
-
pandasql:让 python 运行 SQL
关于 Python 的最喜欢的一件事是使用者获得观察 R 社区的好处,然后模拟其最好的部分。我相信一种语言和它的库和工具一样有用。
-
初探 RSelenium —— 基于豆瓣电影的爬虫实例
本文基于 豆瓣电影 网站的爬虫实例, 对 RSelenium 包的使用做了初步的介绍。
-
美国橄榄球联盟中裁判判罚方式的差异之数据可视化
计算机最棒的一点在于,它们能够将表格数据转换成更直观的图形表示。常常令我费解的是,明明可以将数据转化为图形表达,但大部分人却往往放弃了这个可视化机会。
-
如何用 Python 执行常见的 Excel 和 SQL 任务
数据从业者有许多工具可用于分割数据。有些人使用 Excel,有些人使用SQL,有些人使用Python。对于某些任务,使用 Python 的优点是显而易见的。以更快的速度处理更大的数据集。使用基于 Python 构建的开源机器学习库。你可以轻松导入和导出不同格式的数据。
-
用 Apache Spark 和 TensorFlow 进行深度学习
神经网络在过去几年中取得了惊人的进步,现在已成为图像识别和自动翻译领域最先进的技术。
-
如何改进手上的机器学习模型
假如,你手头上正有一个机器学习的项目。你通过各种渠道手机数据,建立你自己的模型,并且得到了一些初期的结果。你发现,在你的测试集上你只有80%的正确率,这远远地低于你的预期。现在怎么办,你怎么来改进你的模型?
-
利用描述性统计在R中更好的理解数据(8个有用的秘诀)
理解数据,首先要观察原始数值并且计算基本的统计量。本文带你探索如何在R中利用描述性统计快速处理数据集,尤其适合用r处理机器学习的初学者。
-
基于朴素贝叶斯分类器的情感分析
朴素贝叶斯分类器基于词袋模型,通过词袋模型我们可识别出文本中出现的词属于积极还是消极,若这个词出现在积极的词语列表中,文本的总体分数 +1,若总体分数为正,该段文本被分类为积极,反之亦然。