迅速掌握!处理小数据的7个技巧

迅速掌握!处理小数据的7个技巧

我们经常听说,大数据是那些成功的机器学习项目的关键。

这是一个主要问题:许多组织没有你需要的数据。

如果没有最基本的原材料,我们如何原型化和验证机器学习思想?在资源稀缺的情况下,如何有效地利用数据获取和创造价值?

在我的工作场所,我们为客户制作了很多功能原型。正因为如此,我经常需要让小数据走得更远。在本文中,我将分享7个技巧来改进使用小型数据集进行原型设计时的结果。

1. 要意识到你的模型不能很好地推广

迅速掌握!处理小数据的7个技巧

这应该是目前最重要的。你正在建立一个模型,它的知识是浩瀚的知识海洋中的一小部分,而这种情况应该是必然的。

如果你正在构建一个基于室内照片的计算机视觉原型,不要期望它在户外工作得很好。如果你有一个基于聊天室玩笑的语言模型,不要期望它适用于梦幻的小说。

确保你的经理或客户能理解这一点。这样,每个人都可以对模型应该交付的结果有一个现实的期望。它还为提出有用的新的KPI提供了机会,以便在原型范围内外对模型性能进行量化。

2.建立良好的数据基础设施

迅速掌握!处理小数据的7个技巧

在许多情况下,客户端没有你需要的数据,公共数据也不是一个选项。如果原型的一部分需要收集和标记新数据,请确保你的基础设施尽可能少地产生摩擦。

你需要确保数据标记非常简单,以便非技术人员也可以使用。我们已经开始使用Prodigy,我认为这是一个很好的工具:既可访问又可扩展。根据项目的大小,你可能还想设置一个自动数据摄取器,它可以接收新数据并自动将其提供给标记系统。

如果将新数据快速而简单地导入系统,你将获得更多的数据。

3.做一些数据扩充

迅速掌握!处理小数据的7个技巧

通常可以通过增加现有的数据来扩展数据集。它是对数据进行微小的更改,而不应该显著地更改模型输出。例如,如果一只猫旋转了40度,它的图像仍然是一只猫的图像。

在大多数情况下,增强技术允许你生成更多的”semi-unique”数据点来训练模型。首先,可以尝试在数据中添加少量高斯噪声。

对于计算机视觉,有许多简单的方法来增强图像。我对Albumentations库有很多的经验,它做了许多有用的图像转换,同时保持你的标签完好无损。

迅速掌握!处理小数据的7个技巧

许多人发现另一种有用的增强技术是Mixup。这种技术实际上是获取两个输入图像,将它们混合在一起并组合它们的标签。

迅速掌握!处理小数据的7个技巧

在扩展其他输入数据类型时,需要考虑哪些转换会更改标签,哪些不会。

4.生成一些合成数据

迅速掌握!处理小数据的7个技巧

如果你已经用尽了扩展真实数据的选项,你可以开始考虑创建一些假数据。生成合成数据也是覆盖真实数据集没有的一些边缘情况的好方法。

例如,许多机器人强化学习系统(如OpenAI的Dactyl)在部署到真实机器人之前,都是在模拟的3D环境中进行训练的。对于图像识别系统,你同样可以构建3D场景,为你提供数千个新的数据点。

迅速掌握!处理小数据的7个技巧

有许多方法可以创建合成数据。在Kanda,我们正在开发一个基于 turntable-based 的解决方案,来创建用于对象检测的数据。如果你有很高的数据需求,你可以考虑使用Generative Adverserial Networks 来创建合成数据。要知道GAN是出了名的难训练,所以首先要确保它是可以创建的。

迅速掌握!处理小数据的7个技巧

有时你可以将这些方法结合起来:苹果有一个非常聪明的方法,使用GAN来处理3D建模人脸的图像,使其看起来更像照片。

5. 小心幸运的分割

迅速掌握!处理小数据的7个技巧

在训练机器学习模型时,通常会将数据集按照一定的比例随机分割成训练集和测试集。通常情况下这很好。但是,在处理小数据集时,由于训练示例的数量较少,存在很高的噪声风险。

在这种情况下,你可能会意外地得到一个幸运的分割:一个特定的数据集分割,你的模型将在其中执行并很好地推广到测试集。

而在这种情况下,k-fold交叉验证是更好的选择。本质上,你将数据集分割为k个”folds”,并为每个k训练一个新的模型,其中一个folds用于测试集,其余的用于训练。这控制了你所看到的测试性能不仅仅是由于幸运(或不幸)的分割。

6. 使用迁移学习

迅速掌握!处理小数据的7个技巧

如果你使用的是某种标准化的数据格式,比如文本、图像、视频或声音,那么你可以利用其他人之前在这些领域所做的所有工作来进行迁移学习。这就像站在巨人的肩膀上。

当你进行迁移学习时,你采用别人建立的模型(通常,”其他人”是谷歌、Facebook或一所主要大学),并根据你的特殊需要对它们进行微调。

迁移学习之所以有效,是因为大多数与语言、图像或声音有关的任务都具有许多共同的特征。对于计算机视觉,它可以检测特定类型的形状、颜色或图案。

最近,研究出来一个高精度的目标检测原型。通过微调一个MobileNet单镜头检测器,我可以极大地加快开发速度,该检测器是在谷歌的Open Images v4数据集(约900万标记图像!)上训练的。经过一天的训练,我能够使用~1500张带标签的图像生成一个相当健壮的对象检测模型,测试图为0.85。

迁移学习是有效的,因为与语言、图像或声音有关的大多数任务都有许多共同特征。 对于计算机视觉,它可以是检测某些类型的形状、颜色或图案。

7. 尝试一组”weak learners”

迅速掌握!处理小数据的7个技巧

有时候,你不得不面对这样一个事实:你没有足够的数据来做任何花哨的事情。幸运的是,有许多传统的机器学习算法可以使用,它们对数据集的大小不那么敏感。

当数据集较小且数据点维度较高时,支持向量机等算法是一个很好的选择。

不幸的是,这些算法并不总是像最先进的方法那样精确。这就是为什么他们可以被称为”weak learners”,至少与高度参数化的神经网络相比。

提高性能的一种方法是将这些”weak learners”(这可以是一组支持向量机或决策树组合起来,以便他们”一起工作”来生成预测。这就是集成学习的全部内容。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
小胖的头像小胖读者
上一篇 2019-08-11 19:31
下一篇 2019-08-12 02:48

相关文章

  • 大数据知道你的心脏能不能跑马拉松

    1月2日,2016厦门国际马拉松赛在鹭岛开赛,获得了诸多运动爱好者的追捧。随着近年马拉松运动的兴起,越来越多的兴趣者加入其中。但是,是否所有人都适合这样的运动? 在此次厦门马拉松比赛中,一款叫做“阿甘跑步”的运动社交APP联手深圳一家心电医疗设备供应商,借助阿里云大数据平台面向跑马爱好者推出皮肤级运动心律监测解决方案”安心跑”。希望通过大数据的方法来寻找极限…

    2016-01-05
    0
  • 车品觉:数据的心,无数据不成活(演讲全文)

    导读:我用了二十几年的时间才知道,原来算命和风水是中国社会里最大的骗局,就是用一个非常小的样本数据,来试图判断每一个人未来的命运。这是不可能的。还好的是,在我三十多岁时认识了一个新的朋友,它叫数据。 我开始爱上了数据,爱上数据所能带给我们的洞察力。我们做的事就是提供工具、提供数据,让懂商业的人去使用。应用的无限化,信息的无限化,将会导致人类智能化。 未来没有…

    2016-02-22
    0
  • 无处不在的人工智能:Gartner发布2017年度新兴技术成熟度曲线

    2017年7月,Gartner公司发布了年度新兴技术成熟度曲线。Gartner认为,2017年技术成熟度曲线揭示了未来5-10年的三方面技术趋势,一是无处不在的人工智能、二是身临其境的体验、三是数字化平台,这三个方面的汇聚会带来有竞争力的商业生态。

    2017-08-09
    0
  • 大数据有多火:盘点54家,A轮占比27.8%,增速41.1% ,北京占比57.4%

    本文重点汇总了54家从事大数据的初创企业,从地理分布、融资情况、企业定位、市场趋势、以及业务类型角度对大数据的热火程度进行描绘,干货!

    2016-10-26
    0
  • 中国拥有全球59.5%的大数据人员,但仍然面临人才短缺的问题

    中国正面临着大数据人才的短缺。在整个员工人口中,0.23%的人员占据了大数据。在美国,韩国,芬兰和以色列,大数据专业人数分别约为0.41%,0.43%,0.84%和1.12%。

    2019-05-20
    0
关注我们
关注我们
分享本页
返回顶部