Skip to main content

北京大学开放研究数据平台建设

Posted in
作者信息
姓名: 
朱玲 崔海媛 聂华 刘丹 吴越 罗鹏程
学校名称: 
北京大学

1、背景
近年来,“开放数据”(open data)和“开放科学”(open science)成为科研合作与交流的发展方向。英国皇家学会在2012 年发布的《科学是开放事业》报告中, 敦促科学家们在“可理解的开放性(Intelligent Openness)”的层面上, 使得科研人员的科研数据可获取和可利用。欧盟的一项政策表示寻求成员国通过有关政策以确保“公共资金资助科研成果的科研数据通过电子基础设施实现公共获取、使用和重用”。美国政府白宫科技政策办公室(OSTP)指明“无论全部或者部分受到联邦资助的科研项目, 所产生的数字形式的科研数据都应该存储起来, 并且提供搜寻、检索和使用等的公共访问获取”。
同时,研究/科学数据(research/science data)的产生和积累正在呈指数级增长,科学研究和科技创新越来越依赖于对海量数据的管理、分析和再利用。科学是收集事实和发展理论的结合,二者都不可能自己进步。然而现有的出版体系却将原始数据和科学成果的发表割裂开来,缺乏充足发布数据支撑和验证的科研成果面临着信任危机的考验。数据作为成果正在被越来越多有实力的出版社和顶级期刊纳入出版体系。自然出版集团于2014年5月推出在线出版的开放获取杂志“科学数据”(Scientific Data),提出一种新的文章类型“数据文章”,并引入成熟的同行评审机制,旨在帮助科研人员发布、发现和重用研究数据。
2、建设目标
作为活跃的研究人员,北京大学的学者每天都在使用并生产大量的研究数据,然后成果发表或项目结题之后,很多数据并未得到很好的存储、管理和重复利用。有数据表明,选择性地发布和开放研究数据,能够提高研究成果的引用率,提升学术影响力,促进跨学科的学术交流和合作。
北京大学开放研究数据服务平台,由北大图书馆联合北大社科调查中心、北大社会科学部、北大科学研究部共同推出,致力于成为发布高品质研究数据、传播学术影响力的开放式平台。平台以“规范产权保护”为基础,以“倡导开放科学(Open Science)”为宗旨,鼓励研究数据的发布(Publish)、发现(Discover)、再利用(Reuse)和再生产(Reproduce),促进研究数据引用(Citation)的实践和计量,并探索数据长期保存(Preservation),培育和实现跨学科的协同创新。
3、建设思路与进展
需求调研:发掘和把握北大学者对研究数据管理和再利用的切实需求,建立数据渠道并逐步扩展为校级的数据协作网络,鼓励发布和开放研究数据,探索最佳协作机制。调查内容包括:科研数据管理和数据共享的观念和做法,团队中科研数据的特征,团队中当前的数据管理情况,团队中当前的数据再利用情况,对科研数据管理服务的期望等。调研方式主要为:与北大学术科研管理部门座谈(完成3场次),邀请北大学者面对面访谈(完成6位老师、两所研究中心),筹备大规模问卷调查并先期小规模发放和回收。
平台选型和二次开发:对研究数据管理领域的主流平台软件进行调研和评估,包括自建平台、开源软件和商业软件,确定基于哈佛大学Dataverse network开源软件搭建北大研究数据管理平台。根据北大学者的需求,重点在统一认证、审核流程改造、唯一标识符分配、下载跟踪和统计等方面进行了二次开发。
政策拟撰:进行相关政策和理论的研究,基于国际和国内发展现状,关注最新动态和未来发展趋势,突出对本地环境的针对性和可操作性,草拟本平台与服务的相关政策,并向学校提出数据管理政策建议。
数据建设和案例实施:目前已有北大的研究中心或课题组建立9个数据空间,超过30个数据集。
4、平台功能特点

  • 数据提交、描述、管理和发布:创建和管理数据空间,提交、管理和发布数据集;定义元数据模板;数据集的版本管理和历史存档;个性化空间风格;嵌入机构主页、学者主页
  • 分级管理和访问控制:管理权限控制,多角色和用户授权;灵活设置数据空间、数据集、数据文件访问权限;受限文件下载请求与审核
  • 唯一标识符技术/规范数据引用
  • 数据在线分析和可视化(R语言和Zelig组件):对Tabular、Network数据可进子集拆分、变量分析、可视化展示;对数据生成数字指纹UNF
  • 规范的版权保护:平台用户协议;自定义数据集使用条款
  • 数据文件的下载统计和使用跟踪
  • 基于统一认证登录的实名学术社区
  • 嵌入科研管理综合信息系统

 

开发环境(编程环境,开源软件的利用): 
开源软件Dataverse network、JSF框架、ICE标签、统计分析R语言与Zelig可视化包、全文检索引擎工具包Lucence、开发工具netbeans等
应用环境(运行环境,应用范围):: 
Linux操作系统、PostgreSQL数据库、应用服务器Glassfish
应用效果(访问量,访问频率等): 
内部测试,预计12月底发布
开发人员: 
朱玲 崔海媛 聂华 刘丹 吴越 罗鹏程 张元俊 张乃帅 韦成府
合作单位: 
北京大学社科调查中心,北京大学社科部,北京大学科研部