数据采集:人工智能的基础服务 | 创业方向的研究与思考

这是一个数据驱动商业发展的时代。

数据的挖掘和分析不再只是 BAT 大公司的专属，其正逐步成为广大中小企业的基础需求，而且日趋迫切。并且数据挖掘的技能也随着网络爬虫的普及，云计算的计算能力的提高，机器学习算法的发展，逐渐变得平民化。广大的中小企业也可以基于数据驱动，提供更好的服务与产品，从而取得更大的发展。

数据挖掘其实是一个很大的概念，本文主要探讨其中的“挖”，或者叫做“网络爬虫”、“网页抓取”更容易理解。因为除了少数产品具备获取海量数据之前，绝大多数企业需要从公开数据，主要是互联网，获取外部数据，以便进行市场分析、舆情监控和竞品分析等活动。

在笔者看来，更倾向称之为“数据采集”。分为两步“采”和“集”。

对应的“采”，主要是数据的获取，可以有多种方式，网络抓取是其中主要的一种，也有数据合作，购买。

对应的“集”，则是数据的清洗，连接，整合，将价值密度低的数据转化为价值密度高的数据。

1「数据采集的发展阶段」.

根据笔者的分析，数据采集自上世纪 90 年代兴趣之后，相当长的时间是属于技术开发者的专项技能。但随着云计算，大数据，甚至人工智能的发展，这项技能犹如“ 旧时王谢堂前燕，飞入寻常百姓家 ”，变得简单，易用。其主要经历四个阶段。

数据采集 1.0 — 基于编程语言的爬取框架

熟悉爬虫的攻城狮都会想如数家珍一样说出一串：Scrapy，WebMagic，Nutch，Heritrix 等等，相信在 Github 上大大小小也不下 30 个爬虫框架。他们共同的特点是：门槛较高，仅面向开发者，学习成本和维护成本较大，一个企业搭建一个成型的爬虫团队往往成本较大。

数据采集 2.0— 基于软件客户端的爬取工具

用户需要下载客户端，同时需要有一定的 HTML、正则表达式和 CSS 能力。国内出现最早的客户端叫火车头采集器，属于一代的爬取工具，对 HTML、正则表达式的要求还比较高（笔者亲测）。

二代的产品如八爪鱼和集搜客 GooSeeker 则提供可视化的爬取服务，通过点选爬取需要的数据。其特点是：门槛进一步降低，对于非专业开发者，通过一定的学习即可自行爬取需要的公开数据。但主要还是面向个人用户为主，由于用户客户端的限制，难以大规模持续爬取，数据的存储和分析难以兼顾。

数据采集 3.0—云爬虫服务

首先，用户体验大大提升，大多采用点选（point-and-click）方式，用户所见即所得，无需编写代码，也无需了解 HTML，正则表达式以及 CSS 样式就可以定制想要的爬虫。其次，无需担心自己的电脑的限制，爬虫运行的云端，可以定时定点，也可以爬取大量的数据，甚至可以在云端做一定程度的数据清洗和整合的工作。

目前国外的数据采集项目大多采用前端点选（point-and-click）方式，后端云服务模式。如下是国外的项目列表：

目前国内的数据采集项目分为三种：

1，基于客户端或者插件的云采集服务。

客户端方式代表项目有八爪鱼和集搜客 GooSeeker，其不在仅仅完全依靠客户端的计算资源，而是采用客户端方式可视化点选的用户体验更好，速度更快。同时将爬取的服务转移到云端，提供较大的数据爬取能力和数据整合能力。

浏览器插件方式如爬一爬，通过安装浏览器插件，实现前端点选（point-and-click）方式，后端云服务模式。

2，基于 Web 的云采集服务

用户无需安装直接在网友上进行点选（point-and-click）操作，云端进行爬取服务。这种方式优点是用户随时随地使用，简单方便。国外的许多项目采用此类模式，如 import.io，国内采用这种模式的项目为造数科技。但是缺点是需要首先在云端将网页加载渲染好，再呈现给用户，这就需要耗费提供商的大量计算资源，而且速度往往较慢。

3，面向开发者的云采集开发云服务

目前国内一家叫神箭手的公司在提供此类服务。神箭手是一站式通用爬虫开发平台。具备 Java 能力的开发者可以在平台上开发爬虫；不具备开发能力的用户可以在爬虫市场上购买或者定制开发需要的爬虫。

其主要的客户是中小企业的开发者，基于神箭手这个平台，开发者只需掌握一定的 Java 开发能力即可开发。同时提供爬取能力弹性计算服务，动态 IP 代理，文件云托管，验证码识别等服务，帮助开发者快速高效的采集网络数据。目前市场上，基本上是 80%的人在采集 20%的网络数据，比如企业信息，电商，O2O 等，而这项网络数据往往具有较强的反爬能力。

数据采集 4.0—Extract-Enrich-Connect 数据服务

笔者认为目前数据采集尚处于 3.0 阶段，4.0 阶段尚没有形成，即提供数据采集，清洗，连接，分析等一体的数据服务能力。

从 3.0 跃升至 4.0 阶段，在笔者看来，不单单是技术的升级。不同行业，不同场景所需要的数据是不同的，往往是难以标准化的，这样就会走向定制化，从而导致难以形成标准产品，规模化扩展。场景变化带来的技术挑战才会凸显出来，因为真是场景所需要的技术并非简单升级而是颠覆式创新。

至于未来是否会完成跳跃，之后又会是怎样的方式服务大家，现在还很难说。目前国外的 import.io，dexi.io，Connotate，国内的八爪鱼，神箭手，造数都在进行自己的探索。

2「合法性的探讨」.

在互联网领域关于数据爬取合法性的问题一直存在争议，也确实有不法分子利用数据爬取工具进行黑产交易。数据爬取就像是一个锋利的双刃剑，主要来看使用者是否将其应用在有益的方面。

其实在互联网数据爬取方面主要的准则，就是 Robots 协议，也称为爬虫协议，网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。这原先主要针对搜索引擎公司，大家自觉遵守的公约。

随着数据采集范围的扩大，逐步突破了这条协议，但也有约定俗成的规则，广大的数据采集公司都应该遵守。

1，采集的应该是网络公开数据，并且数据的用途不能用于复制该网站信息，或者简单的将数据贩卖。更多允许的情况是将多方采集的公开数据进行整合，分析，形成数据分析服务。

2，采集的强度不宜损害目前网站的性能，无形增加目标网站的维护成本，甚至造成损失。

此外，我国 6 月 1 日刚刚实施了《中华人民共和国网络安全法》，这是我国网络领域的基础性法律，明确加强了对个人信息的保护，打击网络诈骗。

网络安全法共有 7 章 79 条，其中针对个人信息泄露问题规定：网络产品、服务具有收集用户信息功能的，其提供者应当向用户明示并取得同意；网络运营者不得泄露、篡改、毁损其收集的个人信息；任何个人和组织不得窃取或者以其他非法方式获取个人信息，不得非法出售或者非法向他人提供个人信息。这恐怕对数据采集公司更有方向的指导性。

3「数据采集发展至今，为什么现在会爆发？」.

随着云计算，大数据，人工智能的发展，数据采集作为数据的重要手段，成为广大企业的迫切需求。首当其冲的是中小企业的数据采集团队，不再需要维护完备的团队，大大降低了公司的成本，可以这些节省的费用用户数据产品的发展，提升产品的价值。而对于普通的个人，不再需要较高的门槛，就可以定制自己的数据采集方案，更多的行业，更多的场景会广泛使用。

人工智能的服务形态告诉我们，对于那些信息完备（Information-Complete）的领域，机器终将会超过并取代人类；

对于那些信息不完备（Information-Incomplete）的领域，通过人类和机器的协同，也会促进新的发展；

对于那些抽象思维（Information-Free）的领域，依旧是人类主导，机器提供一定辅助。

数据采集即是属于信息完备（Information-Complete）的领域，机器在数据采集，清洗，整合完全可以取代人类，再通过与人类的协同，进行数据分析和预测。这将是即将发生在眼前的事情。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。