Skip to main content

ThuRID建设实例

Posted in
作者信息
姓名: 
窦天芳
学校名称: 
清华大学

 一、         项目背景

学术研究以学者为核心,汇集、保存、追踪、展示本校学者的学术论文是图书馆义不容辞的责任,更是图书馆支撑学术研究的重要价值。建立以学者为中心的科研网络对了解学者的学术历程、促进学者之间更广泛的交流与合作非常重要,这也成为国内外高校广泛关注并着手探索的课题。
  ThuRIDTsinghua University Researcher Identity)的建设目标则是以海量学术文献资源为基础,自动甄别并汇集当前在校的清华学者的学术出版物,研究领域、合作者、期刊会议等信息,建立并展示以学者为中心的科研网络。充分挖掘图书馆海量文献的优势,通过文献的增值服务增强图书馆与学术研究之间的粘性,在学术研究的前沿发挥信息服务的价值。
二、         ThuRID的技术难点
建立ThuRID涉及三个关键的技术环节,包括:数据采集与清洗、学者甄别及科研网络建立、可视化展示。其中学者甄别是本项目的亮点也是项目的难点。
作者误认是追踪文献过程中常见的问题。消除文献中作者姓名拼写歧义(作者姓名消歧)、准确定位目标学者及其学术出版物、解决“Who is Who”的问题既是建立以学者为中心的科研网络的基础也是ThuRID项目的关键。
清华图书馆利用Adaboost 算法设计学者甄别模块(D&F Find Researcher based on Datasets ),目的是通过自动甄别获得稳定的学者与文献之间的关系,建立学者ID与姓名规范档。甄别并非易事,甄别的技术细节不做赘述。
三、         ThuRID的功能特点
l. 汇总展示学者完整的学术研究历程
当前的学术环境下,学者流动频繁。近年来,作为各种计划被引进的学者在清华比比皆是。以材料学院士南策文老师为例,其毕业于华东理工大学,获得武汉工业大学博士学位,先后在美国、德国等6所大学工作,2000年被清华大学引进,ThuRID不仅能汇集其在清华期间的科研成果,也同时很好地汇集了其在其他机构的研究成果,完整地表现了该学者从事学术研究的历程,并以按年分布的可视化视图展示。
 


2.开放共享的运行机制
ThuRID采用开放共享的理念。这主要表现在2个方面:
1)面向用户的数据下载与共享。通常学者自己发表的论文列表以excelword表格的形式存放,与之对应的文章则以分散的文件形式保存。某种程度上这种文献的管理方式非常不利于成果的传播,特别是研究组的新成员希望全面了解吸收前面积累的科研成果时,往往会重新查找相关文献,重复耗费精力。本项目集中汇总的文章列表,可以年等形式分别展示,并提供链接到全文的服务。清华大学合法用户可以通过在图书馆借还书的授权对目标学者的数据进行判断和下载。院系科研秘书也申请白名单授权管理维护自己院系的数据。当然学者也可在web界面自行维护自己的文章数据,完成上传、下载、纠错等操作。如图所示。
 

2)面向第三方应用的数据共享。系统支持XML格式数据的共享方式,第三方系统可以获取ThuRID数据集成应用。

3. 可视化的科研网络

可视化是对数据/信息的图形化描述和表现,是人类获取知识、成就探索的有效渠道。ThuRID项目大力采用可视化技术,利用成型的可视化工具,将ThuRID 的数据抽象成工具所需的数据模型,在web 层展示以学者为中心的科研网络,同时支持基于可视化视图的动态交互。
ThuRID以圆形图、矩形图、散射图等形式展现,其中圆形图、矩形图采用HTML5绘制,可自适应多终端设备。散射图采用flash绘制,需要安装一定的插件才可在多终端设备完美展示。
 

 

                                        

 散射图

4.自动追踪学者发文及收录情况

最早的ThuRID不包括自动追踪和引文收录的模块。我们给3个院系多名学者发送ThuRID项目意见征集的过程中,其中每个学者都提出希望收集SCI引用次数的信息,部分学者提出能否自动追踪论文的被收被引等信息。
ThuRID已经有了非常好的基础数据,并在此基础上形成了稳定强势的特征库,在此基础上准确追踪学者在SCIEI等数据库中的被收被引情况成为可能。目前ThuRID支持SCI的收录追踪。追踪的的最新文章在系统首页展示。图是最新文章追踪情况及展示图。
学者发文情况的自动追踪
四、         成效
目前,ThuRID已建立100名学者ID及科研网络。其中材料系、物理系、软件学院共42名学者的数据得到本人或者院系的审核。非常幸运的是,我们收到这些院系学者的热烈响应和积极反馈。这些学者包括:全球物联网创始人、院士、国家杰出青年基金获得者。像SCI引文追踪、按照引文数据排序、将ThuRID成果嵌入院系学者主页等建议都是来自清华学者本人的反馈。通过这些反馈,我们也可看出学者对文献追踪、评价、管理、展示、分析等功能的渴求,目前我们也正在和部分院系商谈操作细节,将ThuRID成果嵌入院系老师的主页是图书馆服务价值的具体体现。
五、         应用前景
ThuRID本身可最为独立的服务,其产生的算法、数据可直接用于机构仓储的建设,丰富原有机构数据的展示,并吸引学者积极参与机构仓储的建设;ThuRID的研究成果也可用于其他高校的学者信息汇集及展示;同时因ThuRID 产生的大量数据对进一步挖掘人物关系,学术生产力分析提供了良好的数据基础。

 

开发环境(编程环境,开源软件的利用): 
Java:Web应用,数据采集,分析; Python:数据采集,分析; Tomcat:Web server
应用环境(运行环境,应用范围):: 
与操作系统无关,适用于所有终端设备,欢迎使用IPAD测试
应用效果(访问量,访问频率等): 
http://rid.lib.tsinghua.edu.cn/tshrid/index.htm
开发人员: 
窦天芳 李崇 田国强 张成昱
合作单位: 
北京爱琴海乐之技术有限公司