Skip to main content

北京科技大学机构知识库建设实践

Posted in
作者信息
姓名: 
王李梅
学校名称: 
北京科技大学图书馆

    在开放获取活动的深入发展和对长期保存迫切需求的推动下,国内外机构库的建设呈快速发展趋势,据OpenDOAR(Directory of Open Access Repositories)的统计,截至到2011年11月12日已有2135个机构库在其站点上进行了注册。北京科技大学图书馆利用自身信息资源优势,建立北京科技大学机构知识库具有长期的战略意义,本项目的实施将1)长期保存我校学术研究成果,展示我校各机构间的研究实力,提高学术声誉、促进学术发展;2)减少因数据库购买不足而导致部分成果全文本校师生无法查阅的问题,促进学术交流;3)系统中规范的题录内容和良好的组织架构可以加强图书馆与学校人事、科技处等部门的合作,提供各方所需资料、提高工作效率。

    北京科技大学机构知识库目前进行了一期建设,工作中心主要集中在正式出版的期刊文献和会议文献的元数据建设和系统平台构建(包括系统选用、功能开发和数据内容的规范)。
    1、系统选用——DSpace系统
    DSpace系统是一个开放源代码的软件平台,其界面简洁友好、检索功能强大,支持多数据格式、可扩展的元数据描述机制,具有以事件触发构建的工作流机制、以分级权限控制的管理体系,还可以支持多种操作系统:Windows、Linux等,也是OpenDOAR注册机构库中使用最多的系统。因此,北京科技大学机构知识库以DSpace系统为核心并进行二次开发。
    2、元数据建设
    建设机构知识库的难点是机构库的元数据采集、元数据规范设计和元数据的批量管理与提交。未经二次开发的DSpace系统只能逐条导入数据,利用NoteExpress个人文献管理软件(简称NE)对元数据题录的批量采集、批量管理、导入导出、剔重和开发后批量提交等功能来完成元数据建设。
    1)元数据采集:正式出版的期刊文献和会议文献主要从中国知网、万方数据资源系统、维普、Web of Science和Engineering Village网络数据库中完成采集;
    2)元数据规范设计:此为机构库组织方案设计的核心工作。统筹考虑数据库采集字段、NE提供字段和机构库中都柏林定义字段,设计了各类型元数据模板的字段对应表。元数据中的具体字段内容的规范兼顾了学校人事、科技处等部门系统字段需求,并作出统一的规范、展示。
    3)元数据的批量管理与提交:利用NE软件剔重功能进行剔重;根据“作者机构/单位”字段进行划分院系,中文元数据利用NE中的组织机构统计功能进行院系划分,英文元数据根据英文名称特征词进行匹配通过转换程序划分。开发了批量提交工具并对其功能进行细化,提高机构库内容建设效率。
    3、系统平台构建
    1)系统环境:硬件环境——虚拟机,操作系统——Windows Server 2003,软件平台——DSpace1.6.0、PostgreSQL8.3、Apache Tomcat6.0.18;
    2)二次功能开发:组织结构树状显示、快速提交、新闻发布、笔记、评论、RSS推送、论文认领、机构库中的题录和全文批量导入到NE中等功能,修改了DSpace中作者、主题字段索引混乱的问题,新添了个人主页展示功能;
    3)内容建设:规范都柏林定义字段和详细题录展示页面结构;建立学院、资源类型和年份三级树状组织结构;批量提交已采集资源充实资源内容。
    目前,北京科技大学机构知识库已经完成2005-2010年期刊、会议元数据的采集、规范、提交和机构库系统功能、内容建设,后续将在其它类型资源建设和使用服务方面开展工作。

开发环境(编程环境,开源软件的利用): 
开源软件DSpace1.6.0,PostgreSQL8.3,Java语言
应用环境(运行环境,应用范围):: 
Microsoft Windows Server 2003,Apache Tomcat6.0.18
应用效果(访问量,访问频率等): 
试运行中
开发人员: 
王瑜,王李梅,刘恩涛,李国俊
合作单位: 
北京爱琴海软件公司