创建卓越数据管理计划的十项简单规则

数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。

创建卓越数据管理计划的十项简单规则研究论文和数据产品是科学企业的核心成果。政府、非政府组织,以及科研的私人基金会赞助商正愈加认识到研究数据的价值。其结果是,多数出资人现在要求足够详细的数据管理计划应该作为研究建议提交的一部分。数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。这类计划通常涵盖数据全部或部分生命周期——从数据发现、收集和组织(如电子表格,数据库)、通过质量保证/质量控制、文档(例如数据类型,实验室方法),以及数据的使用,到数据保存及其与他人的分享(如数据政策和传播方法)。图1刻画了假设研究和数据生命周期之间的关系,并突出了文件中提出的规则的联系。该DMP经过了同行的审查,其中的一部分用来评价一个项目的价值。该计划还记录与投资项目相关的数据管理活动,并可以在绩效考核阶段重新审核。

创建卓越数据管理计划的十项简单规则图1.研究生命周期(A)的数据生命周期(B)的关系。突出圆圈指的是与数据生命周期的步骤关联性最密切的规则。

作为研究生命周期(A)的一部分,很多科研人员通过采集(2)掺入(3)了各种分析和可视化元素的数据进行想法和假设的测试(1),形成了之后发表(4)在文献上面的诠释研究结果的论文,并通过其它机制传播(例如,会议演讲,博客,微博),而且这常常会导致重新返回(1)新的想法和假设。在数据生命周期(B)中,研究者们一般制定(1)数据在该项目期间和项目后期的管理计划,发现(2)并采集现存的数据资源,收集(3)并组织新的数据资源,确保(4)数据的质量,描述(5)数据,使用(6)分析,模型,可视化等方面的数据,保存(7)数据并于他人(例如,研究人员,学生,决策者)分享(8),这种步骤可能导致新的想法和假设。

1确定研究赞助商的要求

研究机构通常制定自己的标准方法和途径来管理和传播数据。同样,研究赞助商往往对DMP有非常具体的期望。比如说,维康信托基金会、戈登和贝蒂穆尔基金会(GBMF)、美国国立卫生研究院(NIH)以及美国国家科学基金会(NSF)同样都资助了计算生物学的研究,但在他们的DMP要求明显不同。

首先了解该组织规定的要求可以节省大量的时间和精力。科研赞助商通常会把DMP的开发需求写在邀标书(RFP)中,或者发布到网上的标书指南中。

不管之前你是否已将提案提交给特定资助项目,始终重要的是要记得检查最新版的RFP,并研究赞助商的网站,以核实他们的要求最近是否已经改变,以及如何改变。请记住,主要目标应该是建立一个对你的项目非常有用的计划。因此,良好的数据管理计划可以而且常常包含比研究自助者所要求的多得多的信息。

2确定将要收集的数据

每个DMP的组成都取决于你对将要收集的数据了解多少,以及所收集的数据的类型。显然数据量是很重要的,因为管理10TB级的数据量要比管理10兆字节数据量花费更多的基础设施和人员方面的成本。但是,数据的其它特性也影响成本的投入,包括元数、数据的质量保证和保存策略,甚至包括数据的策略。一个好的计划应该包括充分了解所收集数据的信息性质,包括:

数据类型。一个良好的第一步就是列出你希望收集或创建各种数据的类型。这可以包括文本、电子数据表软件和算、模、图像和电、音频文件以及患者的病历。请注意,许多研究赞助商把数据定义得很广泛,包括实体馆藏、软件和源代码以及课程教材。

数据来源。数据可能来自人类直接观测结果、实验室和现场仪表、实验、模拟,以及其他研究的数据的汇编。评审员和赞助商可能对数据的专用性的理解、从其他研究中编制数据、涉及人类受试者特别感兴趣,他们也感兴趣是否你的数据按照其规定限制了他们的使用或者再发布的权限。

数据量。预期收集的数据总体积和文件总数都会可能会影响其他数据的管理活动。

数据与文件格式。今天我们可以接受的技术变化和格式可能很快就会过时。优质的选择,包括那些被科学界首选并广泛采用的基于开放标准的非专有格式。如果数据未经压缩,也未加密,并使用标准字符编码储存的话,数据可以被长期的读取。精确的类型,来源,体量,以及数据的格式可以不事先知道,这取决于研究的性质和独特性。在这种情况下,该解决方案应该对计划迭代更新。(详见规则9)

3确定组织数据的方式

一旦理解了要收集数据的体积和类型,下一个明显步骤就是确定如何组织和管理数据。对于许多项目,会产生少量数据表,这些数据表可以借助商业或开源电子表格程序进行有效的管理。较大的数据量,并具有使用约束性质的,可能需要使用像ORACLE或mySQL这样的关系数据库管理系统(RDBMS)进行管理,或者使用地理信息系统(GIS)进行地理空间数据层的管理。

有关如何组织和管理数据的细节,可以写满好几页的文本,事实上,这些文本应记录为项目的进展细节。那些在项目中所使用的软件工具应该可以满足项目预期的任务要求。根据赞助商的要求和空间限制,指定文件命名、永久唯一标识符以及版本控制的规定非常重要。

4解释数据将的记录方式

数字和字符的每一行每一列具有很少或几乎没有意义,除非它们以某种方式记录。元数据——关于是什么、何地、何时、为何以及如何对数据进行收集,处理和解释的细节——提供一种使数据和文件被发现、使用和正确的引用的信息。元数据包括了数据和文件如何被命名、物理结构以及存储的描述,也包括了关于实验、分析方法、研究场景的细节。创造全面综合的元数据所需要的努力可能会因为数据复杂性,类型和数据量有实际上的不同。

一个健全的文档策略,可以基于三个步骤。首先,应确定被捕获数据信息的类型,以使研究人员发现、获取、解释,使用并引用您的数据。第二,确定是否存在可以被采取以社区为基础的元数据模式或标准(即,元数据元素的优选集)。第三,确定可用于创建和管理元数据内容(例如,Metavist,形态)的软件工具。

最好的做法是指定一个负责人来维护一个包含所有的项目细节的电子实验室笔记本。笔记本最好能定期由其他团队成员审查、修改以及复制。记录在笔记本中的元数据为那些和存储、重复使用并共享的数据产品有关的元数据提供了基础。

5描述如何保证数据质量

质量保证和质量控制(QA/ QC)指的是用于测量,评估和改进产品(例如,数据,软件等)的质量的过程。这可能需要遵循特定的QA / QC准则,取决于研究资助的性质。它是描述您计划在项目聘请QA / QC措施很好的做法。这些措施可以包括训练活动、仪器校准和验证测试,双盲数据输入,以及统计和可视化的方法的错误检测。简单的图形化数据探索的方法(例如,散点图,映射)可宝贵的检测异常和错误的方法。

6提出一个完善的数据存储和保护策略

没有经验的(甚至许多有经验)的研究人员的一个常见的错误是认为他们的个人电脑和网站将永葆青春。在项目进程中他们未能例行日常的数据复制工作,并没有看到将数据归档在安全位置所带来的长期益处。论文丢失、硬盘崩溃、URLs失效以及磁带和其他原因造成的数据丢失无法避免。因此,数据存储和保护是任何良好的数据管理计划的核心。请慎重考虑一下三方面问题:

  • 数据需要多久的访问时间?
  • 在项目进程当中如何储存并保护数据?
  • 怎样才能让数据的保存和读取利于日后的使用?

这三个问题的答案取决于几个因素。首先,确认研究赞助商或者你的母机构是否有任何具体的要求。其次,考虑要数据的内在价值。某些现象的观测结果无法被复制(比如说天文和环境事件),因此这些数据要被永久保存。那些可以通过简单的重复性实验获得的数据可以只保存一段时间。模拟实验中的源代码、初始条件和验证数据需要储存。除了要解释如何选取需要短期储存或者需要长期保护的数据之外,也不要忘记还得强调你的计划对随行的元数据和相关的代码和算法,以便于别人可以解释和使用数据。(参见规则4)

为项目的生命周期开发一个优越的数据储存和保护计划。一个比较好的办法就是将至少三个数据的副本存储在至少两个不同的地域分布位置(比如说原来的位置,如台式计算机、外部硬盘驱动器,以及一个或多个远程站点),并制定一项复制数据的常规计划(比如说备份)。远程站点可能包括异地合作者的实验室、机构资料库,或者由Amazon、Dropbox、Google或者Microsoft提供的商用服务器。备份日程安排也应包括检测,以确保所存储的数据文件可以被检索。

如果希望数据的访问时间可以长达20年时间,那么你最好选择一个更强大的解决方案。寻求同事和馆员的意见,为您的研究领域确定一个合适的数据存储库。许多学科维护着特定的存储库例,如GenBank核苷酸序列数据以及进行蛋白测序使用的蛋白质数据库。我们经常会考虑采用将代码存放在主机储存库这种办法来管理源代码。请记住,任何具体的资料库、政策(例如,数据隐私和安全,要求提交相关的代码)和数据提交、保管以及备份应包含在DMP和建议预算成本内。

7确定项目的数据策略

尽管有时候人们认为避免政策和法律问题带来的麻烦可能是一个自然的倾向,但是当涉及到数据的问题时,研究人员不能这样做。研究赞助商、主持研究工作的科研机构以及科学家都有推动责任和道德行为的作用和义务。因此,许多研究赞助商要求DMP包含有关数据如何进行管理和共享的明确的政策声明,包括:

  • 涉及到使用原材料的许可或共享安排;
  • 用于保留、许可、共享和禁运的(比如,限制其他用户在某一段时间内数据的使用)数据、代码和其它材料计划;
  • 涉及到人类受试者和其他敏感数据的使用时,加以法律和道德的限制。

不幸的是,实际上政策和法律经常出现混淆或矛盾的情况。此外,适用于一个组织内或某个国家的策略可能无法在别处使用。如有疑问,请咨询资助你的研究的机构办公室、相关机构审查委员会,或者指派给该程序为你提供支持的官员。

尽管有这些警告,通常可以通过以下几个简单的步骤,制定良好的政策。首先,如果存在数据和代码这样的原材料正在被使用的情况,一定要在你的DMP中识别并包括相关许可和共享安排在的描述。解释第三方软件或图书馆在创建和发布新版本软件时时如何被使用的。需要注意的是,所有权和知识产权(IPR)的法律和出口管制法规可能会限制到代码和软件共享的程度。

其次,解释数据和其他研究产品可以使用的时间和方式。请解释如出版物或专利原因的任何因禁运期间或延误。通常的做法是使数据大致可在出版的时候得到广泛传播。在任何可能的时候,应用标准豁免权或许可,比如由开放数据共享(ODC)和创作共用(CC)建立的许可,引导后续使用的数据和其它知识产权产品。

最后,解释有关人类受试者或者敏感性数据的处理方式。许多研究赞助商要求研究者在进行人体试验之前,要寻求并接受相应的机构审查委员会的事先批准,并在收到批准之后才可以开始试验。审批可能需要受试者知青并同意,而且数据需要匿的,并限制数据的使用方式。

8描述数据的传播方式

最完美的保护计划和数据共享政策并不一定意味着项目的数据会迎来曙光。评审员和赞助商会再次确保你已经清楚说明了如何以及何时数据产品将被传播给他人的情况的发生。传播数据有被动和主动的方式。被动的方法包括在项目或者个人而定网站上发布帖子,或者根据请求发送电子邮件,但是后者会因为较大的数据和带宽能力受限。更加积极,稳健,和首选的方法包括:(1)在一个开放的存储库或存档中发布数据(参照规则6);(2)将数据(或其子集)作为附录或补充期刊文章提交,诸如通常与PLOS家族期刊合作完成;(3)将数据,元数据和相关的代码作为“数据论文”进行发布。数据论文可以发表在各类刊物上,包括Scientific Data(由自然出版集团主办)、GeoScience DataJournal(代表英国皇家气象学会的Wiley出版),以及GigaScience。

一个良好的传播计划包括几方面的简介陈述——在何时、以什么方式,提供什么样的数据产品。通常,我们鼓励在出版发行期间和项目的完成期间以最小的限制,让数据得到最多的获取途径。上文提到的通过邮寄或者电子邮件的方式发送数据,从长期来看会是一种有效节省时间和成本的办法,因为数据管理和共享将会得到适当的期刊和资料库或档案室的支持。此外,许多期刊和资料库会为你提供别人如何适当引用您的数的指导方针和机制,包括数字对象标识符的机制,以及建议的引文格式,这有助于确保您收到您所创建的数据产品的信用。请记住,如果数据是使用标准的、非专利方式传播,并带有用于数据处理使用的元数据以及相关的代码,那么数据会变得更加实用并经得起解释。

9分配职责和责任

一项全面的DMP会清楚地澄清每一个指定的个人和与项目相关的组织的职责和责任。职责可能包括数据采集、数据录入、QA/QC、元数据创建和管理、备份、数据准备和提交归档以及系统管理。要考虑时间分配和工作人员所需的专业知识水平。对于中小型项目而言,一个学生或博士后协助收集和处理数据的人员,就可以容易承担大部分或全部的数据管理任务。相比之下,大型的且有很多研究人员的项目,可能受益于将数据管理分配给一个专门的工作人员人。

对待你的DMP应该像善待一个有生命的文件一样,要经常的访问它(例如,按季度)。分配一位项目团队成员去修改该计划,要能够反映协议和政策的任何新的变化。跟踪展示计划修改时间及其细节的修订历史记录中的任何更改是很好的做法。

评审员和赞助商很可能感兴趣了解如何评估并验证坚持数的据管理计划,以及在项目结束之后如何、由谁,来管理数据。一定要注意,非项目人员的贡献,如任何存储库、系统管理、备份、培训,或由机构提供高性能计算都可以支持你的项目开发。

10准备一个现实可行的预算

创建、管理、发布和分享高质量的数据就像发表你的成果一样,也是21世纪的研究企业的一部分。数据管理是不是新鲜事物,相反,它已经是所有研究人员已经在做的事情。然而,在开发DMP一个常见的错误是忘记预算活动。数据管理需要一定的时间,并在软件,硬件和人员方面需要成本投入。审查你的计划,并确保预算可以支持管理数据的人员(见第规则9),并可以支付必要的硬件,软件和服务。

数据管理计划应该提供您和他人用易于遵循的路线图,指导并解释数据在整个项目生命周期和项目完成后的处理方式。这里介绍的十个简单的规则旨在帮助您写一个合乎逻辑的,全面的好的计划,以复合评审员和研究赞助商的要求。一个DMP为项目提议阶段和项目计划阶段提供了小组之间的信息传输方式并建立项目的期望值。常言道,计划不如变化快。计划只有在使用中才会不断被优化。最好的计划应该是一种“活文件”,可以被定期审查,并根据需求和协议的任何更改(例如,元数据、QA / QC、仓储)、政策、技术、人员和工作人员,以及重复进行必要的修订。公共的、机器可读的、并公开许可的DMP更可能被纳入未来的项目当中,并有较高的影响,比如说不断透明化的研究资金的处理可以帮助科研人员和赞助商发现数据和潜在和合作方,培养数据管理能力并监控政策的执行。

本文为专栏文章,来自:化学数据联盟,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/20032.html 。

(0)
化学数据联盟的头像化学数据联盟专栏
上一篇 2016-06-26
下一篇 2016-06-29

相关文章

  • 浅谈知识图谱的构建与应用

    知识图谱是把所有不同种类的信息连接在一起而得到的一个关系网络,它提供了从“关系”的角度去分析问题的能力,是关系最有效的表达方式,目前在营销、交通、风控场景,知识图谱均有应用。

    2017-06-21
    0
  • 云数据库高可用解决方案技术解析

    高可用,英文翻译为”High Availability”. 从字面上理解就是要做到服务的full-time的持续可用,但老实说,要做到full-time是不现实的,因为能够影响系统服务可用性的因素实在是太多了,除了软件BUG、硬件故障外还包括系统所依赖的一些第三方服务(如运营商提供的带宽),甚至还包括天灾人祸等;因此我理解所谓的高可用意味着”更少的停服时间”…

    2021-01-11
    0
  • 如何通过传递参数来实现快速切换图表和数据

    参数是一个可灵活调整的变量,这个变量目前支持在BDP个人版的计算字段中使用(未来可能会支持更多应用),实现单个计算字段甚至整个图表的动态逻辑方案。

    2018-01-22
    1
  • 阿里云数据库产品总监何云飞:从大数据到云计算,DT时代的数据容器是怎样的?

    摘要:在DT(DataTechnology)时代,挖掘海量数据的价值,让数据成为新的经济增长引擎,往往离不开云的支持。来看看阿里云是怎么处理的吧!本文整理自3月27日极客邦科技「技术社群大会」上何云飞先生的演讲。 人类正从IT时代走向DT时代,从五年前开始,我们在云计算上面押了很多宝,才诞生了互联网金融,如果没有数据支持,互联网金融是不可想象的。」 ——马云…

    2016-04-19
    0
  • 数据库的使用你可能忽略了这些

    数据库的管理是一个非常专业的事情,对数据库的调优、监控一般是由数据库工程师完成,但是开发人员也经常与数据库打交道,即使是简单的增删改查也是有很多窍门,这里,一起来聊聊数据库中很容易忽略的问题。 字段长度省着点用 先说说我们常用的类型的存储长度: 很明显,不同的类型存储的长度有很大区别的,对查询的效率有影响,字段长度对索引的影响是很大的。 字符串字段长度都差不…

    2017-03-06
    0
关注我们
关注我们
分享本页
返回顶部