数据处理
-
人工智能的数据、算法和处理,三者缺一不可
一个人工智能项目中,最重要的究竟是数据、算法还是处理过程?有些人说,没有来龙去脉的数据是没有意义的,这些数据的来龙去脉可以是其他数据、模型/算法或处理流程。让我们以一种简洁的方式探究这些人工智能的要素,以发现每种视角的优点。
-
数据分析前的量化工作
数据采集、特征提取、数据标准化、数据清洗和数据预处理,这些是常规数据分析前的工作。
-
如何进行有效的大数据处理、分析?
大数据和分析法的质量,不如分析的目的来得重要。最有趣的紧张态势和争论,始终围绕着组织是否会因使用分析法而获得最大报酬,以使既有的流程行为(process behavior)更完善,或者改变公司人员的行为。
-
23 种 Pandas 核心操作,你需要过一遍吗?
Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据的函数和方法。一般而言,Pandas 是使 Python 成为强大而高效的数据分析环境的重要因素之一。在本文中,作者从基本数据集读写、数据处理和 DataFrame 操作三个角度展示了 23 个 Pandas 核心方法。 Pandas 是基于 NumPy 构建的库,在数据处理方…
-
最强指南:处理35种不良数据的正确方式
作为一名数据从业者,你的世界充满了数据,而这些数据充满了问题。本指南列出了在数据处理时可能遇到的各种问题以及建议的解决方案。
-
在应用机器学习时如何处理不良数据?
我们在收集、储存和处理大量数据方面取得的进展对于机器学习,或者说人工智能的发展起着重要的作用。许多问题都需要大数据的支持来解决,幸运的是,现在收集、存储和处理大数据的成本比以前要小得多,速度也要快得多。
-
数据挖掘师,要从一个人活成一支队伍
每每看到数据挖掘师对于大规模数据处理,机器学习算法侃侃而谈的时候,觉得这就是数据分析师该有的样子,这就是大师。
-
数据处理性能对比(Python原生 vs Pandas vs Numpy)
对于任何数据科学家来说,速度和时间都是一个关键因素。在商业活动中,通常不会使用仅仅有数千个样本的玩具数据集。大部分时候你的数据集包括数百万或数亿个样本。客户订单,网络日志,帐单活动,股票价格等 – 现在的数据集非常庞大。
-
大数据驱动下的快手直播系统优化案例
写在前面 大家下午好,我是罗喆,来自快手,过去的一年多我在快手做直播的体验优化相关的工作。今天给大家分享的主题是快手如何在大数据的驱动下来优化直播的质量。 加入公司这一年多,公司的注册用户和日活每天都刷新峰值,到现在,快手的注册用户已经超过 5 亿,短视频数量已经超过了 int32 所能存储的数字的上限,也就是 21 个亿,日活跃用户数也已经达到 6500 …
-
领诚科技大数据日志分析解决方案
日志分析,并非大数据“雕虫技” 经过长期的信息化建设,企业积攒了成百上千套系统,每天产生海量的日志信息数据。然而,大量的日志信息往往被遗弃、或存放历史库中,未能有效发挥其价值。部分企业逐步意识到日志信息的重要性,部署了Tivoli等管理系统,但这种传统解决方案,对半结构和非结构化数据适应性极差,且局限于历史数据的统计展示,对日志数据的获取、使用和价值发挥均存…
-
数据同步神器,“同步宝”新版上线
大量的数据在BDP进行替换/追加操作, 这样每天的工作量会很大 。有了同步宝后,只需要首次将数据放到同步宝指定的文件夹, 之后同步宝将数据自动同步至BDP,那数据图表结果也实时随之变化!
-
马云:想在未来拿高薪 就去做与数据分析相关的工作
马云:对数据分析的基本理解对下一代年轻人来说非常重要,这就是你们要进入的世界。
-
使用scikit-learn对数据进行预处理
使用scikit-learn对数据进行预处理。
-
使用R进行数据提取
本篇文章介绍如何通过R按特定的维度或条件对数据进行提取,完成数据提取需求。
-
使用R进行数据匹配
R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能。